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尊敬 的 各 位 同学 ， 本 书 是 我 伦 了 相当 长 的 时 间 写 出 来 的 ， 章 节 内 容 也 都 是 经 过 精心 编排 
的 。 为 了 得 重用 户 的 认 知 规律 ， 给 各 位 同学 一 个 良好 的 学 习 体 验 ， 我 甚至 推 殴 了 很 久 各 种 概念 
的 出 场 顺 序 对 用 户 体验 的 影响 。 如 果 您 对 MySQL 不 熟 ， 或 者 不 是 很 熟 ， 那 么 请 暂时 扎 掉 已 经 
学 到 的 一 些 关 于 MySQL 的 知识 。 就 像 是 张无忌 在 学 习 太 极 剑 法 时 那样 ， 这 样 才能 更 好 地 跟着 
我 设计 好 的 套路 走 ， 从 而 达到 事半功倍 的 效果 。 在 学 习 过 程 中 ， 大 家 千 万 千 万 千 万 要 遵循 下 面 
这 3 个 建议 : 

e@ 一 定 要 逐 章 学 习 本 书 ， 千 万 不 要 跳 着 阅读 ! 

e 一 定 要 逐 章 学 习 本 书 ， 于 万 不 要 跳 着 阅读 ! 

@ 一 定 要 逐 章 学 习 本 书 ， 千 万 不 要 跳 着 阅读 ! 

因为 从 前 期 读者 在 本 书 电子 版 的 测试 过 程 中 反馈 的 问题 来 看 ， 绝 大 部 分 问题 都 是 因为 违反 
了 上 面 这 3 个 建议 而 产生 的 。 

当然 ， 尽 管 我 尽 了 自己 很 大 的 努力 来 让 进 阶 MySQL 的 这 个 过 程 变 得 更 容易 些 ， 但 终究 不 
可 能 满足 所 有 人 的 需求 ， 有 很 多 读者 在 阅读 过 程 中 肯定 会 产生 这 样 那样 的 疑惑 ， 我 知道 在 自己 
阅读 技术 图 书 的 过 程 中 遇 到 了 困惑 而 不 得 解 是 一 种 多 么 大 的 折磨 ， 如 果 大 家 在 阅读 本 书 的 过 程 
中 遇 到 了 什么 不 得 解 的 困惑 ， 请 使 用 微 信 扫描 下 方 的 二 维 码 进入 答疑 群 提 问 〈 人 数 较 多 的 微 信 
群 只 能 通过 个 人 手动 拉 入 )。 另 外 ， 请 大 家 在 答疑 群 中 提问 ， 而 不 是 直接 私信 ， 一 对 一 答疑 对 
我 来 说 负担 是 很 大 的 。 





上 面 的 二 维 码 是 使 用 我 的 个 人 域名 生成 的 ， 所 以 在 使 用 微 信 扫 码 时 可 能 会 提示 

)-。” 非 微 信 官 方 网 页 ， 大 家 继续 访问 就 好 了 .如 果 扫 码 不 成 功 ; 可 以 手动 添加 微 信号 : 

小 I5 十 。”*iaohaizi4920。 有 可 能 个 人 微 信 已 经 加 满 ， 此 时 大 家 也 可 以 到 “我 们 都 是 小 青蛙 ”公众 
号 中 获取 答疑 群 的 进入 方式 . 另外， 由 于 我 比较 忙 ， 所 以 可 能 回复 不 及 时 ， 望 见谅 


这 里 特别 注意 一 下 ， 需 要 提问 的 同学 一 定 要 先 搞 清楚 自己 到 底 哪 里 不 清楚 ， 然 后 用 通顺 的 语 
句 把 它 表 达 出 来 。 以 往 很 多 同学 的 问题 都 是 含糊 不 清 ， 表 达 不 通顺 ， 这 样 的 问题 真 的 是 让 人 看 了 
要 发 疯 。 所 以 为 了 我 们 双方 的 方便 ， 提 问 前 请 认真 思考 一 下 。 另 外 ， 我 只 负责 回答 关于 本 书 的 问 
题 ， 其 他 问题 请 和 其 他 同学 讨论 吧 〈 一 是 作者 很 可 能 也 不 会 ， 二 是 作者 精力 实在 有 限 ， 望 理解 )。 


ed 
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哇 喇 ， 看 到 这 里 ， 大 家 有 没有 觉得 我 好 善良 呢 ? 买书 还 附 赠 答 疑 解 惑 服务 。 我 当然 不 是 这 
么 单纯 ， 建 立 答疑 群 其 实 有 两 个 目的 : 

e@ ”对 于 读者 来 说 ， 可 以 解答 在 学 习 过 程 中 的 疑惑 ， 读 者 由 此 受益 ; 

e 对 于 作者 来 说 ， 可 以 为 我 的 图 书 营造 一 个 好 的 口碑 ， 以 后 再 写 别 的 图 书 也 好 卖 一 些 ， 

我 也 可 以 从 中 受益 。 

另外 ， 本 书 的 知识 比较 系统 ， 需 要 大 家 花费 较 多 的 时 间 认 真 研读 ， 不 过 受 个 人 能 力 和 篇 幅 
所 限 ， 无 法 做 到 面面俱到 ， 大 家 也 并 不 能 把 本 书 当 作 MySQL 百科 全 书 。 为 此 ， 我 开设 了 一 个 
名 为 “我 们 都 是 小 青蛙 ”的 微 信 公众 号 ， 里 面 会 不 定期 地 发 布 一 些 原创 的 技术 文章 ， 偶 尔 也 会 
“ 扯 扯 犊 子 ”， 希 望 能 对 大 家 有 帮助 。 





a 
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“我 们 都 是 小 青蛙 ”公众 号 
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著作 自己 是 个 小 白 一 一 初 识 MySQL 


1.1 MySQL 的 客 己 端 /服务 强 架 构 


以 我 们 平时 使 用 的 微 信 为 例 ， 它 其 实 是 由 客户 端 程序 (可 以 简称 为 客户 端 ) 和 服务 器 程序 (可 
以 简称 为 服务 器 ) 两 部 分 组 成 的 。 微 信 客 户 端 可 能 具有 多 种 形式 ， 比 如 手机 App、 桌 面 端的 软件 
或 者 网 页 版 的 微 信 。 微 信 的 每 个 客户 端 都 有 一 个 唯一 的 用 户 名 ， 即 微 信 号 。 男 一 方面 ， 腾 讯 公司 
在 它们 的 机 房 里 运行 着 微 信 的 服务 器 程序 。 我 们 平时 在 微 信 上 的 各 种 操作 ， 其 实 就 是 使 用 微 信 客 
户 端 与 微 信服 务 器 打交道 。 比 如 狗 哥 使 用 微 信 给 猫 苑 发 一 条 微 信 消息 的 过 程 大 致 如 下 所 示 。 

1. 狗 哥 发 出 的 微 信 消 息 被 客户 端 进行 包装 ， 添 加 了 发 送 者 和 接收 者 的 信息 ， 然 后 从 客户 

端 发 送 到 微 信 服务 器 。 
2， 微 信服 务 器 从 收 到 的 消息 中 获取 发 送 者 和 接收 者 信息 ， 并 据 此 将 消息 发 送 到 猪 爷 的 微 
信 客 户 端 。 然 后 ， 猫 爷 的 微 信 客户 端 就 会 显示 狗 哥 给 他 发 的 消息 。 

MySQL 的 运行 过 程 与 之 类 似 ， 即 它 的 服务 器 程序 直接 与 要 存储 的 数据 打交道 ， 多 个 客 
户 端 程序 可 以 连接 到 这 个 服务 器 程序 ， 向 服务 器 发 送 增删 查 改 的 请 求 ， 然 后 服务 器 程序 根据 
这 些 请 求 ， 对 存储 的 数据 进行 相应 处 理 。 与 微 信 一 样 ，MySQL 的 每 一 个 客户 端 都 需要 使 用 
用 户 名 和 密码 才能 登录 服务 器 ， 而 且 只 有 在 登录 之 后 才能 向 服务 器 发 送 某 些 请 求 来 操作 数据 。 
MySQL 的 日 常 使 用 场景 是 下 面 这 样 的 。 

1， 启 动 MySQL 服务 器 程序 。 

2. 启动 MySQL 客户 端 程序 ， 并 连接 到 服务 器 程序 。 

3. 在 客户 端 程序 中 输入 命令 语句 ， 并 将 其 作为 请 求 发 送 给 服务 器 程序 。 服 务 器 程序 在 收 

到 这 些 请 求 后 ， 根 据 请 求 的 内 容 来 操作 具体 的 数据 ， 并 将 结果 返回 给 客户 端 。 

众所周知 ， 现 在 计算 机 的 功能 都 很 强大 ， 一 台 计 算 机 上 可 以 同时 运行 多 个 程序 ， 比 如 微 
信 、QQ、 英 雄 联 盟 游 戏 、 文 本 编辑 器 等 。 计 算 机 上 运行 的 每 一 个 程序 也 称 为 一 个 进程 。 运 行 
过 程 中 的 MySQL 服务 器 程序 和 客户 端 程序 在 本 质 上 来 说 都 算是 计算 机 中 的 进程 ， 其 中 代表 
MySQL 服务 器 程序 的 进程 称 为 MySQL 数据 库 实例 (instance)。 


1.2 MySQL 的 安装 


在 安装 MySQL 时 ， 无 论 是 通过 下 载 源 代码 的 方式 自行 编译 安装 ， 还 是 直接 使 用 官方 提供 的 
安装 包 进 行 安装 ，MySQL 的 服务 器 程序 和 客户 端 程序 都 会 安装 到 机 器 上 。 无 论 采 用 上 述 哪 种 安装 
方式 ， 一 定 要 记 住 MySQL 安装 在 哪里 了 。 换 句 话 说， 一定 一 定 一 定 要 记 住 MySQL 的 安装 目录 。 


了 
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。 MySQL 的 大 部 分 安装 包 都 包含 了 服务 器 程序 和 客户 端 程序 ， 不 过 在 Linux 环境 下 
ee 
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一 
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另外 ，MySQL 可 以 运行 在 各 种 类 型 的 操作 系统 上 ， 本 书后 文 会 讨论 MySQL 在 类 UNIX 
操作 系统 和 Windows 操作 系统 上 的 一 些 使 用 差别 。 为 了 方便 大 家 理解 ， 我 在 macOS 操作 系统 
和 Windows 操作 系统 上 都 安装 了 MySQL， 它 们 的 安装 目录 分 别 如 下 。 

e macOs 操作 系统 上 的 安装 目录 : /usr/local/mysql/。 

e Windows 操作 系统 上 的 安装 目录 : C:\Program Files\MySQL\MySQL Server 5.7\。 

下 面 会 以 这 两 个 安装 目录 为 例 来 进一步 引出 更 多 的 概念 。 大 家 一 定 要 注意 ， 上 面 这 两 个 安 
装 目 录 是 在 我 的 运行 不 同 操作 系统 的 机 器 上 的 安装 目录 ， 大 家 在 后 文 的 示例 中 一 定 要 将 安装 目 
录 蔡 换 为 自己 机 器 上 的 安装 目录 。 





OR 二 
全 | 镜 作 系统 的 范 蝴 。 这 里 使 用 macOS 操作 系统 代表 关 UNIX 操作 系统 来 运行 MYSQL 


1.2.1 bin 目录 下 的 可 执行 文件 


在 MySQL 的 安装 目录 下 有 一 个 特别 重要 的 bin 目录 ， 这 个 目录 存放 着 许多 可 执行 文件 。 
以 macOS 系统 为 例 ， 这 个 bin 目录 的 绝对 路 径 〈 在 我 的 机 器 上 ) 就 是 /usr/local/mysql/bin。 
下 面 我 们 列 出 macOS 系统 中 这 个 bin 目录 下 的 部 分 可 执行 文件 ， 如 下 所 示 。 需 要 说 明 的 


是 ， 该 目录 下 的 文件 太 多 ， 这 里 仅 列 出 了 部 分 。 


- 


| 一 mysal 

mysql .server -> ../SupPort-fles/mysql .serVer 
mysqladmin 
mysqlbinlog 
mysqlcheck 
mysqlid 
mysqld multi 
mysqld safe 
mysgqldump 
mysqlimport 
mysqlpump 
(省 略 其 他 文件 ) 


0 directories, 40 files 


TFETIEFTEL 


Windows 中 的 可 执行 文件 与 macOS 中 的 类 似 ， 不 过 都 是 以 .exe 为 扩展 名 (不 同 的 操作 系统 中 ， 
bin 目录 下 包含 的 可 执行 文件 并 不 完全 相同 )。 这 些 可 执行 文件 中 ， 有 的 是 服务 器 程序 ， 有 的 是 客 
户 端 程序 。 后 面 会 详细 介绍 一 些 比较 重要 的 可 执行 文件 ， 这 里 先 看 一 下 这 些 文件 的 执行 方式 。 

在 具有 图 形 用 户 界面 的 操作 系统 中 ， 可 以 通过 鼠标 点 击 的 方式 打开 并 运行 某 个 可 执行 文 
件 。 但 是 我 们 现在 要 关注 的 是 ， 如 何在 命令 行 解释 器 下 运行 这 些 可 执行 文件 。 


Dy ws 二 So -3 1 
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-区 -所 请 命令 行 解 大 器 ， 指 的 就 是 类 UNIX 系统 中 的 Shell 或 者 Wihdows 系统 中 的 
地 、 cmd.exe. ad a 人 下 生生 所 六 在 : = 人 
小 贴 士 “ 把 命令 行 解释 器 称 作 黑 框框 . 2 ds 





下 面 以 macOS 系统 为 例 来 看 看 如 何 执行 这 些 可 执行 文件 《Windows 中 的 操作 与 之 类 似 ， 
这 里 不 再 更 述 )。 


e 使 用 可 执行 文件 的 相对 / 绝对 路 径 来 执行 
假设 命令 行 解释 器 中 的 当前 工作 目录 是 MySQL 的 安装 目录 ， 即 /usr/local/mysql， 要 想 执 
行 bin 目录 下 的 mysqld 可 执行 文件 ， 可 以 使 用 相对 路 径 ， 如 下 所 示 : 


./bin/mysqgild 


也 可 以 通过 直接 输入 mysqld 的 绝对 路 径 的 方式 来 执行 ， 如 下 所 示 : 


/usr/local/mysql/bin/mysqld 


e 将 bin 目录 的 绝对 路 径 加 入 到 环境 变量 PATH 中 。 

大 家 应 该 发 现 ， 若 每 次 执行 一 个 文件 都 需要 输入 一 长 串 路 径 名 ， 这 未 免 太 麻烦 了。 针对 这 
种 情况 ， 可 以 把 bin 目录 所 对 应 的 绝对 路 径 添加 到 环境 变量 PATH 中 。 环 境 变 量 PATH 是 一 系 
列 路 径 的 集合 ， 各 个 路 径 之 间 使 用 冒号 〈:) 隔离 开 。 

比如 ， 在 我 的 机 器 上 ， 环 境 变 量 PATH 的 值 为 /usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin。 这 
个 值 表明 ， 在 我 输入 某 个 命令 时 ， 系 统 会 在 /usr/local/bin、/usr/bin、/bin、/usr/sbin 和 /sbin 目 
录 下 按照 顺序 依次 寻找 输入 的 这 个 命令 。 如 果 寻 找 成 功 ， 则 执行 该 命令 。 

也 可 以 修改 这 个 环境 变量 PATH， 把 MySQL 安装 目录 下 的 bin 目录 的 绝对 路 径 添 加 到 PATH 
中 。 修 改 后 的 环境 变量 PATH 的 值 为 /usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/mysql/bin。 
这 样 一 来 ， 无 论 命令 行 解释 器 的 当前 工作 目录 是 喻 ， 都 可 以 直接 输入 可 执行 文件 的 名 字 来 局 
动 ， 比 如 下 面 这 样 : 


mysqld 





全 a 
韶关 当量 的 多 以 及 在 系统 修改 环 境 炎 量 的 方 jo - 术 书 讲解 范围 ， 大 家 
ht 二， 行 查询 相关 资料 进行 更 深入 的 学 习 人 


1.3 启动 MySQL 服务 希 程 序 


1.3.1 在 类 UNIX 系统 中 启动 服务 器 程序 


在 类 UNIX 系统 中 ， 用 来 启动 MySQL 服务 器 程序 的 可 执行 文件 有 很 多 ， 且 大 部 分 都 位 于 
MySQL 安装 目录 的 bin 目录 下 。 下 面 我 们 一 探究 竟 。 


IE 
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1. mysqld 

mysqld 可 执行 文件 就 表示 MySQL 服务 器 程序 ， 运 行 这 个 可 执行 文件 就 可 以 直接 启动 一 个 
MySQL 服务 器 进程 。 但 这 个 可 执行 文件 并 不 常用 ， 我 们 继续 看 其 他 的 启动 命令 。 

2. mysqld_safe 

mysqld safe 是 一 个 启动 脚本 ， 它 会 间接 调用 mysqld 并 持续 监控 服务 器 的 运行 状态 。 当 服 
务 器 进程 出 现 错误 时 ， 它 还 可 以 帮助 重启 服务 器 程序 。 另 外 ， 使 用 mysqld_safe 局 动 MYSQL 
服务 器 程序 时 ， 它 会 将 服务 器 程序 的 出 错 信息 和 其 他 诊断 信息 输出 到 错误 日 志 ， 以 方便 后 期 得 
找 发 生 错误 的 原因 。 


涂 : 出 傅 日 志 默认 与 到 一 个 以 .EIT 为 扩展 名 的 文件 和 该 文 人 位 于 MNO 的 数据 目录 - 
小 十 庆生 后 续 章节 会 介绍 MySQL 的 这 个 数据 目录 人 


3. mysql.server 
mysql.server 也 是 一 个 启动 脚本 ， 它 会 间接 地 调用 mysqld_safe。 在 执行 mysql.server 时 ， 
在 后 面 添加 start 参数 就 可 以 启动 服务 器 程序 了 ， 如 下 所 未: 


myYSGL .SerVer start 


需要 注意 的 是 ，mysqlserver 文件 其 实 是 一 个 链接 文件 ， 它 对 应 的 实际 文件 是 ../support- 
files/mysql.server。 





清 : 通过 源码 安装 MySQL， 或 者 使 用 一 个 没有 自动 安装 iiysqlserver 及 本 的 实 桨 包 末 安 
小 贴 十 装 MySQL 时 ， 需要 手动 安装 这 个 mysqlserver 及 本 具体 安装 方式 可 以 参阅 相关 文档 


还 可 以 使 用 mysql.server 来 关闭 正在 运行 的 服务 器 程序 ， 此 时 只 需 把 start 参数 换 成 stop 即 
可 ， 如 下 所 示 : 


TYSG1L .SerVer stop 


4. mysqld_mutti 


其 实 我 们 在 一 台 计 算 机 上 也 可 以 运行 多 个 服务 器 实例 ， 也 就 是 运行 多 个 MySQL 服务 器 进 
程 。mysqld_mnulti 可 执行 文件 可 以 启动 或 停止 多 个 服务 器 进程 ， 也 能 报告 它们 的 运行 状态 。 这 
个 命令 的 使 用 比较 复杂 ， 本 书 主要 是 为 了 讲 清楚 单个 MySQL 服务 器 的 运行 过 程 ， 不 会 对 启动 
多 个 服务 器 程序 进行 过 多 晓 呀 。 


(学 ny 
py 


@: \ 2 safe、 ye ee i it 术 抽 上 是 一 个 sho 本 大 家 可 以 直接 


四 4 > 


小 贴 十 把 它们 当 作文 本 打开 并 进行 浏览 (前 提 是 能 看 懂 Shell 脚本 ). 


1.3.2 在 Windows 系统 中 启动 服务 器 程序 
尽管 在 Windows 中 没有 提供 像 UNIX 中 的 那么 多 启动 脚本 ， 但 是 它 也 提供 了 两 种 启动 方 
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法 ， 分 别 是 手动 启动 和 以 服务 的 形式 启动 。 
1. 手动 启动 
在 Windows 系统 中 安装 完 MySQL 之 后 ，MySQL 安装 目录 的 bin 目录 下 也 会 存在 一 个 


mysqld 可 执行 文件 。 在 命令 行 解释 器 中 输入 mysqld， 或 者 直接 在 bin 目录 下 双击 该 文件 ， 就 
可 以 局 动 MySQL 服务 器 程序 了 。 


; 芋 S。。。 和 果 没 有 启动 成 功 ， 可 以 切合 用 mysqld -console 命令 来 启动 服务 器 程序 ， 这 样 
NW 二 可 以 把 局 权 这 程 中 生 记 的 氏 刘 信息 在 黑 柜 检 中 显示 出 来， 以 方便 我 们 定位 铺 详 。 
2. 以 服务 的 方式 启动 


如 果 我 们 需要 在 计算 机 上 长 时 间 运 行 某 个 程序 ， 并 且 无 论 是 谁 在 使 用 这 人 台 计 算 机 ， 这 个 程 
序 的 运行 都 不 受 影响 ， 我 们 就 可 以 把 它 注册 为 一 个 Windows 服务 ， 由 操作 系统 来 帮 有 我 们 管理 。 
把 某 个 程序 注册 为 Windows 服务 的 方式 挺 简单 具体 如 下 : 


"完整 的 可 执行 文件 路 径 ”--install [-manual] [服务 名 ] 


如 果 我 们 添加 了 -manual 选项 ， 就 表示 在 Windows 系统 启动 的 时 候 不 自动 启动 该 服务 ， 否 


则 会 自动 启动 。 服 务 名 也 可 以 省 略 ， 默认 的 服务 名 就 是 MySQL。 比 如 我 的 Windows 计算 机 上 
mysqld 的 完整 路 径 是 : 


C:\Program Files\MySQL\MySQL Server 5.7\bin\mysqld 
所 以 如 果 我 们 想 把 它 注册 为 Windows 服务 ， 可 以 在 黑 框 框 中 这 么 写 : 
"C:\Program Files\MySQL\MySQL Server 5.7\bin\mysqld" --install 


在 把 mysqld 注册 为 Windows 服务 之 后 ， 就 可 以 通过 下 面 这 个 命令 来 启动 MySQL 服务 器 程序 了 


net start MYSOL 


当然 ， 如 果 你 喜欢 图 形 界面 ， 可 以 通过 Windows 的 服务 管理 器 并 用 鼠标 点 击 的 方式 来 启 
动 和 停止 服务 。 


关闭 这 个 服务 也 非常 简单 ， 只 要 把 上 面 的 start 换 成 stop 就 行 了 ， 就 像 下 面 这 样 : 


net stop MySOQL 


1.4 局 动 MySQL 客户 端 程序 


在 成 功 启动 MySQL 服务 器 程序 后 ， 就 可 以 启动 客户 端 程序 来 连接 到 这 个 服务 器 了 。 bin 


目录 下 有 许多 客户 端 程序 ， 比 方 说 mysqladmin、mysqldump、mysqlcheck 等 。 这 里 要 重点 关注 


的 是 可 执行 文件 mysql ( 指 的 是 一 个 名 称 为 mysql 的 可 执行 文件 )。 通过 这 个 可 执行 文件 ， 我 
们 可 以 与 服务 器 程序 交互 ， 也 就 是 发 送 请 求 并 接收 服务 器 的 处 理 结果 。 局 动 这 个 可 执行 文件 
时 ， 一 般 需 要 一 些 参数 ， 格 式 如 下 ; 
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mysql ~h 主 机 名 ”-u 用 户 名 -p 密 码 
各 个 参数 的 意义 如 表 1-1 所 示 。 
表 1-1 启动 客户 端 程序 时 需要 的 参数 及 其 含义 


参数 名 含义 


表示 服务 器 进程 所 在 计算 机 的 域名 或 者 IP 地 址 。 如 果 服 务 器 进程 就 运行 在 本 机 的 话 ， 可 以 
省 略 这 个 参数 ， 或 者 填写 localhost 或 127.0.0.1; 也 可 以 写成 “--host= 主机 名 ”的 形式 


-u 表示 用 户 名 ; 也 可 以 写成 “--user= 用 户 名 ”的 形式 
-p 表示 密码 ;也 可 以 写成 “--password= 密码 ”的 形式 


yy p 】 2 
CU al A 本 A Rt 
英文 字母 的 参数 称 为 短 形式 





MySQL 客户 端 ， 并 且 连 接 到 服务 器 了 。 


mysql -hlocalhost -uroot -pl123456 


我 们 看 一 下 连接 成 功 后 的 界面 : 


Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 3 
Server version: 5.7.22-debug-log Source distribution 


Copyright (c) 2000, 2018, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
Owners. 


Type ‘help;' or '\h' for help. Type '\c' to clear the current input statement. 


mysql> 


最 后 一 行 的 mysql> 是 一 个 客户 端的 提示 符 ， 之 后 客户 端 发 送 给 服务 器 的 命令 都 需要 写 在 
这 个 提示 符 后 边 。 

如 果 我 们 想 断 开 客 户 端 与 服务 器 的 连接 并 且 关 闭 客户 端的 话 ， 可 以 在 mysql> 提示 符 后 输 
入 下 面 任意 一 个 命令 : 

© quit 

@ exit 

® \q 

比如 输入 quit 试 试 : 


mysql> quit 
Bye 
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输出 Bye 说 明 客 户 端 程序 已 经 关 掉 了 。 大 家 一 定 要 注意 ， 这 是 关闭 客户 端 程序 的 方式 ， 
而 不 是 关闭 服务 器 程序 的 方式 。 怎 么 关闭 服务 器 程序 已 经 在 上 一 节 踪 曙 过 了 。 

如 果 愿 意 ， 可 以 多 打开 几 个 黑 框框 ， 并 在 每 个 黑 框框 都 运行 命令 mysql -hlocalhost -uroot 
-p123456， 这 样 我 们 就 局 动 了 多 个 客户 端 程序 ， 且 每 个 客户 端 程序 都 是 互 不 影响 的 。 如 果 你 有 
多 台 计 算 机 ， 也 可 以 试 着 把 它们 用 局 域 网 连 起 来 ， 在 一 台 计 算 机 上 启动 MySQL 服务 器 程序 ， 
在 男 一 台 计 算 机 上 执行 mysql 命令 时 使 用 他 地 址 作为 主机 名 来 连接 到 服务 器 。 


1.4.1 连接 注意 事项 


，@ 最 好 不 要 在 一 行 命 令 中 输入 密码 。 
在 一 些 系统 中 ， 我 们 直接 在 黑 框 框 中 输入 的 密码 可 能 会 被 同一 台 机 器 上 的 其 他 用 户 通 过 诸 
如 ps 之 类 的 命令 看 到 。 也 就 是 说 这 种 方式 并 不 安全 ， 与 你 当 着 别人 的 面 输入 银行 卡 密码 没 
啥 区 别 。 我 们 在 执行 mysql 命令 连接 服务 器 的 时 候 可 以 不 显 式 地 写 出 密码 ， 就 像 下 面 这 样 : 


mysql -hlocalhost ~uroot -p 


按 回 车 键 之 后 才 会 提示 输入 密码 : 

Enter passworad: 

不 过 这 次 你 输入 的 密码 不 会 被 显示 出 来 ， 心 怀 不 轨 的 人 也 就 看 不 到 了 。 输 入 完成 后 按 
回 车 键 就 成 功 连 接 到 了 服务 器 。 


e 如 果 非 要 在 一 行 命令 中 显 式 地 输入 密码 ， 那 么 -p 和 密码 值 之 间 不 能 有 空白 字符 〈 其 他 
参数 名 和 参数 值 之 间 可 以 有 空白 字符 )， 就 像 下 面 这 样 : 


mysql -h localhost -u root -P123456 


如 果 在 -p 和 密码 值 之 间 加 上 了 空白 字符 就 是 错误 的 《下 边 的 命令 会 导致 服务 器 把 123456 
当 作 数 据 库 名 称 对 待 )， 比 如 这 样 : 


mysql -h localhost -u root -p 123456 
e mysql 的 各 个 参数 的 顺序 没有 硬性 规定 ， 也 就 是 说 我 们 也 可 以 这 么 写 : 
mysql -p ~-u root -h localhost 
e 如果 你 的 服务 器 和 客户 端 安装 在 同一 台 机 器 上 ，-h 参数 可 以 省 略 ， 就 像 下 面 这 样 : 


mysql -~u root -p 


e@ 如 果 你 使 用 的 是 类 UNIX 系统 ， 在 省 略 -u 参数 后 ， 会 把 登录 操作 系统 的 用 户 名 当 作 
MySQL 的 用 户 名 去 处 理 。 
比如 我 用 来 登录 操作 系统 的 用 户 名 是 xiaohaizi4919， 那 么 下 面 这 两 条 命令 在 我 的 机 器 
上 是 等 价 的 : 


mysql -~u Xiaohaizi4919 -p 
mysql -Pp 


对 于 Windows 系统 来 说 ， 默 认 的 用 户 名 是 ODBC， 可 以 通过 设置 环境 变量 USER 来 添 
加 一 个 默认 用 户 名 。 


££ 
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1.5 “客户 端 与 服务 器 连接 的 过 程 。 


我 们 现在 已 经 知道 如 何 启动 MySQL 的 服务 器 程序 ， 以 及 如 何 局 动 客 户 端 程序 来 连接 到 这 
个 服务 器 程序 。 运 行 中 的 服务 器 程序 和 客户 端 程序 本 质 上 都 是 计算 机 上 的 一 个 进程 ， 所 以 客户 
端 进程 向 服务 器 进程 发 送 请 求 并 得 到 啊 应 的 过 程 本 质 上 是 一 个 进程 间 通 信 的 过 程 ! MySQL 支 
持 下 面 几 种 客户 端 进程 和 服务 器 进程 的 通信 方式 。 


有 


在 真实 环境 中 ， 数 据 库 服务 器 进程 和 客户 端 进程 可 能 运行 在 不 同 的 主机 中 ， 它 们 之 间 必 须 通 过 
网 络 进行 通信 。MySQL 采用 TCP 作为 服务 器 和 客户 端 之 间 的 网 络 通信 协议 。 在 网 络 环境 下 ， 每 台 
计算 机 都 有 一 个 唯一 的 他 地 址 ， 如 果 某 个 进程 需要 采用 TCP 协议 进行 网 络 通信 ， 就 可 以 向 操作 系 
统 申 请 一 个 端口 号 。 端 口号 是 一 个 整数 值 ， 它 的 取 值 范围 是 0 一 65535。 这 样 ， 网 络 中 的 其 他 进程 就 
可 以 通过 四 地 址 + 端口 号 的 方式 与 这 个 进程 建立 连接 ， 这 样 进程 之 间 就 可 以 通过 网 络 进行 通信 了 。 

MySQL 服务 器 在 启动 时 会 默认 申请 3306 端口 号 ， 之 后 就 在 这 个 端口 号 上 等 待 客户 端 进程 
进行 连接 。 用 书面 一 点 的 话 来 说 ，MySQL 服务 器 会 默认 监听 3306 端口 。 


i ”TCP/IP 是 现在 通用 的 一 种 网 络 体系 结构 ， 其 中 TCP 和 了 人 p 是 两 个 非常 重要 的 网 络 协 
:化 、 议 如果 你 不 知道 协议 是 什么 或 者 不 知道 网络 是 什么 ， 直 时 找 本 计 算 机 网 络 的 蔬 听 了 
小 贴 士 “ 吧 :如 果 看 得 很 吃力 的 话 可 以 等 我 蝇 . a 


如 果 3306 端口 号 已 经 被 别 的 进程 占用 ， 或 者 我 们 单纯 地 想 自 定 义 该 服务 器 进程 监听 的 端 
口号 ， 就 可 以 在 月 动 服务 器 程序 的 命令 行 中 添加 -P 参数 来 明确 指定 端口 号 ， 比 如 这 样 : 


mysqld -P3307 


这 样 MySQL 服务 器 在 启动 时 就 会 去 监听 指定 的 端口 号 3307。 

如 果 客 户 端 进程 想 要 使 用 TCP/IP 网 络 与 服务 器 进程 进行 通信 ， 那 么 我 们 在 使 用 mysql 命令 启 
动 客户 端 程序 时 ， 在 了 参数 后 必须 跟随 他 地 址 来 作为 需要 连接 的 服务 器 进程 所 在 主机 的 主机 名 。 
如 果 客 户 端 进程 和 服务 器 进程 位 于 同一 台 计 算 机 中 ， 则 可 以 使 用 127.0.0.1 来 代表 本 机 的 他 地 址 。 另 
外 ， 如 果 服 务 器 进程 监听 的 端口 号 不 是 默认 的 3306， 我 们 也 可 以 在 使 用 mysql 命令 启动 客户 端 程 
序 时 使 用 卫 参 数 〈 注 意 是 大 写 的 P， 小 写 的 p 是 用 来 指定 密码 的 ) 指定 需要 连接 的 端口 号 。 比 如 我 
们 现在 已 经 在 本 机 启动 了 服务 器 ， 监 听 的 端口 号 为 3307， 我 们 在 启动 客户 端 程序 时 可 以 这 样 写 : 


mysql -hl127.0.0.1 -uroot -P3307 -p 


1.5.2 命名 管道 和 共享 内 存 


如 果 你 是 一 位 Windows 用 户 ， 那 么 可 以 考虑 在 客户 端 进程 和 服务 器 进程 之 间 使 用 命名 管 
道 或 共享 内 存 进行 通信 。 不 过 在 使 用 这 些 通信 方式 的 时 候 ， 需 要 在 启动 服务 器 程序 和 客户 端 程 
序 时 添加 一 些 参数 。 
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e 使 用 命名 管道 进行 进程 间 通 信 : 需要 在 启动 服务 器 程序 的 命令 中 加 上 --enable-named- 
pipe 参数 ， 然 后 在 启动 客户 端 程序 的 命令 中 加 上 --pipe 或 者 --protocol=pipe 参数 。 
e@ 使 用 共享 内 存 进 行进 程 间 通信 :， 需 要 在 启动 服务 器 程序 的 命令 中 加 上 --shared-memory 
参数 。 在 成 功 启动 服务 器 后 ， 共 享 内 存 便 成 为 本 地 客户 端 程序 的 默认 连接 方式 。 我 们 
也 可 以 在 启动 客户 端 程序 的 命令 中 加 上 --protocol=memory 参数 来 显 式 指定 使 用 共享 内 
存 进行 通信 。 
需要 注意 的 是 ， 使 用 共享 内 存 进行 通信 的 服务 器 进程 和 客户 端 进程 必须 位 于 同一 台 Windows 
主机 中 。 


全 汪 过 和 大 内 存 是 Windows 操作 系统 中 的 两 种 进 各 人 方式， 和 生怕 兴 





1.5.3 UNIX 域 套 接 字 


如 果 服 务 器 进程 和 客户 端 进程 都 运行 在 操作 系统 为 类 UNIX 的 同一 台 机 器 上 ， 则 可 以 使 用 
UNIX 域 套 接 字 进 行进 程 间 通信 。 如 果 在 启动 客户 端 程序 时 没有 指定 主机 名 ， 或 者 指定 的 主机 


名 为 localhost， 又 或 者 指定 了 --protocol=socket 的 启动 参数 ， 那 么 服务 器 程序 和 客户 端 程序 之 | 


间 就 可 以 通过 UNIX 域 套 接 字 进 行 通信 了 。 
MySQL 服务 器 程序 默认 监听 的 UNIX 域 套 接 字 文 件 名 称 为 /tmp/mysql.sock， 客 户 端 程序 


也 默认 连接 到 这 个 UNIX 域 套 接 字 文件 名 称 。 如 果 想 改变 这 个 默认 的 名 称 ， 可 以 在 启动 服务 器 
程序 时 指定 socket 参数 ， 就 像 下 面 这 样 : 


mysqld --socket=/tmp/a.txt 


这 样 服务 器 在 启动 后 便 会 监听 /tmp/a.txt。 在 服务 器 改变 了 默认 的 UNIX 域 套 接 字 文件 名 
称 后 ， 如 果 客 户 端 程序 想 通 过 UNIX 域 套 接 字 进行 通信 ， 也 需要 显 式 地 指定 连接 的 UNIX 域 套 
接 字 文件 名 称 ， 就 像 下面 这 样 : 


mysql -hlocalhost -uroot -~-socket=/tmp/a.txt -~p 


si 如 果 大 家 不 了 解 哈 是 UNIX 域 套 接 字 也 不 用 深究 了 ， 容 的 完整 性 才 
5m. 人 家用 有 一 和 和 人文 站， a 的 1 
小 贴 士 ”有 影响 . : EE 





1.6 服务 器 处 理 客户 端 请 求 


其 实 ， 无论 客户 端 进程 和 服务 器 进程 采用 哪 种 方式 进行 通信 ， 最 后 实现 的 效果 都 是 客户 端 
进程 向 服务 器 进程 发 送 一 段 文本 “MySQL 语句 )， 服 务 器 进程 处 理 后 再 问 客 户 端 进程 返回 一 
段 文本 〈 处 理 结果 )。 那 么 ， 服 务 器 进程 对 客户 端 进 程 发 送 的 请 求 做 了 什么 处 理 ， 才 能 产生 最 


A 


] 
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后 的 处 理 结 果 呢 ? 客户 端 可 以 向 服务 器 发 送 增删 改 查 等 各 头 请 求 ， 这 里 以 比较 复杂 的 查询 请 求 
为 例 来 展示 一 下 大 致 的 过 程 ， 如 图 1-1 所 示 。 


天 me ao 


林 


| 
| jd 
加 | 
aAV 
- 


Wb Ne ee 


WN dl 





。 图 1-1 查询 请 求 执行 过 各 
从 图 1-1 中 可 以 看 出 ， 服 务 器 程序 在 处 理 来 自 客户 端的 查询 请 求 时 ， 大 致 需要 分 为 3 部 分 : 
连接 管理 、 解 析 与 优化 、 存 储 引 擎 。 下 边 来 详细 看 一 下 这 3 部 分 都 做 了 些 什 么 。 


1.6.1 连接 管理 


客户 端 进程 可 以 采用 前 面 介 绍 的 TCPIP、 命 名 管道 或 共享 内 存 、UNIX 域 套 接 字 等 几 种 方式 与 
服务 器 进程 建立 连接 。 每 当 有 一 个 客户 端 进程 连接 到 服务 器 进程 时 ， 服 务 器 进程 都 会 创建 一 个 线程 
专门 处 理 与 这 个 客户 端的 交互 ; 当 该 客户 端 退 出 时 会 与 服务 器 断 开 连接 ， 服 务 器 并 不 会 立即 把 与 该 
客户 端 交互 的 线程 销毁 ， 而 是 把 它 缓存 起 来 ， 在 另 一 个 新 的 客户 端 再 进行 连接 时 ， 把 这 个 缓存 的 线 
程 分 配给 该 新 客户 端 。 这 样 就 不 用 频繁 地 创建 和 销毁 线程 ， 从 而 节省 了 开销 。 从 这 一 点 大 家 也 能 看 
出 ，MySQL 服务 器 会 为 每 一 个 连接 进来 的 客户 端 分 配 一 个 线程 ， 但 是 线程 分 配 得 太 多 会 严重 影响 系 
统 性 能 ， 所 以 我 们 也 需要 限制 可 以 同时 连接 到 服务 器 的 客户 端 数量 ， 至 于 怎么 限制 我 们 后 边 再 说 。 

在 客户 端 程序 发 起 连接 时 ， 需 要 携带 主机 信息 、 用 户 名 、 密 码 等 信息 ， 服 务 器 程序 会 对 客 
户 端 程序 提供 的 这 些 信息 进行 认证 。 如 果 认 证 失败 ， 服 务 器 程序 会 拒绝 连接 。 另 外 ， 如 果 客 
户 端 程序 和 服务 器 程序 不 运行 在 一 台 计 算 机 上 ， 我 们 还 可 以 通过 采用 传输 层 安全 性 (Transport 
Layer Security，TLS) 协议 对 连接 进行 加 密 ， 从 而 保证 数据 传输 的 安全 性 。 

当 连 接 建立 后 ， 与 该 客户 端 关联 的 服务 器 线程 会 一 直 等 待 客户 端 发 送 过 来 的 请 求 。 
MySQL 服务 器 接收 到 的 请 求 只 是 一 个 文本 消息 ， 该 文本 消息 还 要 经 过 各 种 处 理 。 预 知 后 事 如 
何 ， 请 继续 往 下 看 。 


1.6.2 解析 与 优化 
到 现在 为 止 ， MySQL 服务 器 已 经 获得 了 文本 形式 的 请 求 ， 接 着 还 要 经 过 “ 九 九 八 十 一 难 ” 





Ar EE 
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的 处 理 ， 其 中 几 个 比较 重要 的 部 分 分 别 是 查询 缓存 、 语 法 解析 和 查询 优化 。 下 面 我 们 详细 来 看 。 
1， 查 询 缓 存 


如 果 我 问 你 9+ 8 x 16 一 3 x 2 x 17 的 值 是 多 少 ， 你 可 能 会 用 计算 器 去 算 一 下 ， 或 者 再 厉害 
一 点 直接 用 心算 ， 最 终 得 到 了 结果 35。 如 果 我 再 问 你 一 遍 9 + 8 x 16 一 3 x 2 x 17 的 值 是 多 少 ， 
你 还 用 再 傻 呵 呵 地 算 一 遍 么 ?我 们 刚刚 已 经 算 过 了 ， 直 接 说 答案 就 好 了 。 

MySQL 服务 器 程序 处 理 查 询 请 求 的 过 程 也 是 这 样 ， 会 把 刚刚 处 理 过 的 查询 请 求 和 结果 组 
存 起 来 。 如 果 下 一 次 有 同样 的 请 求 过 来 ， 直 接 从 缓存 中 查找 结果 就 好 了 ， 就 不 用 再 去 底层 的 表 
中 查找 了 。 这 个 查询 缓存 可 以 在 不 同 的 客户 端 之 间 共 享 ， 也 就 是 说 ， 如 果 客 户 端 A 刚刚 发 送 

一 个 查询 请 求 ， 而 客户 端 B 之 后 发 送 了 同样 的 查询 请 求 ， 那 么 客户 端 B 的 这 次 查询 就 可 以 

直接 使 用 查询 缓存 中 的 数据 了 。 

当然 ，MySQL 服务 器 并 没有 人 那么 聪明 ， 如 果 两 个 查询 请 求 有 任何 字符 上 的 不 同 〈 例 如 ， 空 
格 、 注 释 、 大 小 写 ) ， 都 会 导致 缓存 不 会 命中 。 另 外 ， 如 果 查 询 请 求 中 包含 某 些 系统 函数 、 用 户 
自 定 义 变量 和 函数 、 系 统 表 ， 如 mysql、information schema、performance schema 数据 库 中 的 表 ， 
则 这 个 请 求 就 不 会 被 缓存 。 以 某 些 系 统 函 数 为 例 ， 同 一 个 函数 的 两 次 调用 可 能 会 产生 不 一 样 的 
结果 。 比 如 函数 NOW， 每 次 调用 时 都 会 产生 最 新 的 当前 时 间 。 如 果 在 两 个 查询 请 求 中 调用 了 
这 个 函数 ， 即 使 查询 请 求 的 文本 信息 都 一 样 ， 那 么 不 同时 间 的 两 次 查询 也 应 该 得 到 不 同 的 结果 。 
如 果 在 第 一 次 查询 时 就 缓存 了 结果 ， 在 第 二 次 查询 时 直接 使 用 第 一 次 查询 的 结果 就 是 错误 的 ! 

不 过 既然 是 缓存 ， 那 就 有 缓存 失效 的 时 候 。MySQL 的 缓存 系统 会 监测 涉及 的 每 张 表 ， 只 
要 该 表 的 结构 或 者 数据 被 修改 ， 比 如 对 该 表 使 用 了 INSERT、UPDATE、DELETE、TRUNCATE 
TABLE、ALTER TABLE、DROP TABLE 或 DROP DATABASE 语句 ， 则 与 该 表 有 关 的 所 有 查 
询 缓 存 都 将 变 为 无 效 并 从 查询 缓存 中 删除 ! 






: 便 - 全 ， 比 如 年 类 才 更 去 坦 关 拉 才 二 汪 宁 。 2 
JI 士 “ 护 该 查询 绥 存 对 应 的 向 存 区 域 等 从 MYSQL 5720 nt 使 用 查询 组 有 ， 在- 
MySQL8.0 中 直接 特 基 出险 
2、 语 法 解析 
如 果 查 询 缓存 没有 命中 ， 接 下 来 就 需要 进入 正式 的 查询 阶段 了 。 因 为 客户 端 程序 发 送 过 来 
的 请 求 只 是 一 段 文本 ， 所 以 MySQL 服务 器 程序 首先 要 对 这 段 文本 进行 分 析 ， 判 断 请 求 的 语法 


是 否 正 确 ， 然 后 从 文本 中 将 要 查询 的 表 、 各 种 查询 条 件 都 提取 出 来 放 到 MySQL 服务 器 内 部 使 
用 的 一 些 数 据 结构 上 。 






ts 从 本 质 上 来 说 ， 这 个 从 指定 的 守 亲 中 提取 出 需要 的 信息 算是 一 个 编译 过 程 ， 涉 及 词 
-区 :法 解析 、 语 法 分 析 : 二 久 分 析 竺 和。 和 和 问题 不 避让 们 计 约 和 听 ，， 大 家 只 要 了 解 
小 贴 士 ” 在 处 理 请 求 的 过 程 中 需要 这 个 步骤 就 好 了 

3. 查询 优化 

在 语法 解析 之 后 ， 服 务 器 程序 获得 到 了 需要 的 信息 ， 比 如 要 查询 的 表 和 列 是 哪些 、 搜 索 


i 


es 
i 
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条 件 是 什么 等 。 但 光 有 这 些 是 不 够 的 ， 因 为 我 们 写 的 MySQL 语句 执行 起 来 效率 可 能 并 不 是 很 
高 ，MySQL 的 优化 程序 会 对 我 们 的 语句 做 一 些 优化 ， 如 外 连接 转换 为 内 连接 、 表 达 式 简化 、 
子 查询 转 为 连接 等 一 堆 东 西 。 优 化 的 结果 就 是 生成 一 个 执行 计划 ， 这 个 执行 计划 表明 了 应 该 使 
用 哪些 索引 执行 查询 ， 以 及 表 之 间 的 连接 顺序 是 啥 样 ， 等 等 。 我 们 可 以 使 用 EXPLAIN 语句 来 
查看 某 个 语句 的 执行 计划 。 关 于 查询 优化 的 详细 内 容 我 们 后 边 会 仔细 踪 明 ， 现 在 只 需要 知道 在 
MySQL 服务 器 程序 处 理 请 求 的 过 程 中 有 这 人 么 一 个 步骤 就 好 了 。 


1.6.3 存储 引擎 


到 服务 器 程序 完成 了 查询 优化 为 止 ， 还 没有 真正 地 去 访问 真实 的 表 中 数据 (在 查询 优化 
期 间 可 能 访问 表 中 少量 数据 ， 在 讨论 查询 优化 的 章节 中 我 们 会 详细 踪 胃 )。MySQL 服务 器 把 
数据 的 存储 和 提取 操作 都 封装 到 了 一 个 名 为 存储 引擎 的 模块 中 。 我 们 知道 ， 表 是 由 一 行 一 行 
的 记录 组 成 的 ， 但 这 只 是 一 个 逻辑 上 的 概念 。 在 物理 上 如 何 表示 记录 ， 怎 么 从 表 中 读 取 数据 ， 
以 及 怎么 把 数据 写 入 具体 的 物理 存储 器 上 ， 都 是 存储 引擎 负责 的 事情 。 为 了 实现 不 同 的 功能 ， 
MySQL 提供 了 各 式 各 样 的 存储 引擎 ， 不 同 存储 引擎 管理 的 表 可 能 有 不 同 的 存储 结构 ， 采 用 的 
存 取 算 法 也 可 能 不 同 。 


为 什么 叫 引 党 呢 ? 可 能 这 个 名 字 更 对 风 吧 。 其 实 这 个 存储 引 学 以 前 可 帮 表 处 理 器 ， 
后 来 可 能 人 们 觉得 太 寺 ， 就 收成 了 存储 引擎 、 它 的 功能 就 是 接收 上 层 传 下 来 的 指令 ， 外 
小 贴 士 “后 对 表 中 的 数据 进行 读 取 或 写 入 操作 . 


为 了 方便 管理 ， 人 们 把 MySQL 服务 器 处 理 请 求 的 过 程 简单 地 划分 为 server 层 和 存储 引 
擎 层 。 连 接管 理 、 查 询 缓 存 、 语 法 解析 、 查 询 优 化 这 些 并 不 涉及 真实 数据 存 取 的 功能 划分 
为 server 层 的 功能 ， 存 取 真 实数 据 的 功能 划分 为 存储 引擎 层 的 功能 。 各 种 不 同 的 存储 引擎 为 
server 层 提 供 统一 的 调用 接口 ， 其 中 包含 了 几 十 个 不 同 用 途 的 底层 函数 ， 比 如 “ 读 取 索 引 第 一 
条 记录 ”“ 读 取 索 引 下 一 条 记录 ”“ 插 入 记录 ”等 。 

所 以 在 server 层 完 成 了 查询 优化 后 ， 只 需 按照 生成 的 执行 计划 调用 底层 存储 引擎 提供 的 
接口 获取 到 数据 后 返回 给 客户 端 就 好 了 。 不 过 需要 注意 的 一 点 是 ，server 层 和 存储 引擎 层 交 互 
时 ， 一 般 是 以 记录 为 单位 的 。 以 SELECT 语句 为 例 ，server 层 根据 执行 计划 先 向 存储 引擎 层 取 
一 条 记录 ， 然 后 判断 是 否 符合 WHERE 条 件 ; 如 果 符合 ， 就 发 送 给 客户 端 ， 否 则 跳 过 该 记录 ， 
然后 继续 向 存储 引擎 索要 下 一 条 记录 ; 依 此 类 推 。 


于， 
w 
*: 

0 


~ serVer 层 在 判断 某 条 记录 符合 要 求 之 后 ， 其 实 是 先 将 其 发 送 到 一 个 缓冲 区 ， 待 到 该 
“、 “缓冲 区 满 了 ， 才 向 客户 端 发 送 真 正 的 记录 。 该 缓冲 区 大 小 由 系统 变量 net buffer length 
小 贴 士 控制 ， 当 然 ， 你 现在 可 能 不 知道 哈 是 系统 变量 ， 不 过 下 一 章 就 会 知道 了 。 


1.7 ”常用 存储 引擎 


MySQL 支持 多 种 存储 引擎 ， 先 来 看 看 表 1-2 中 列 出 的 部 分 存储 引擎 。 
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存储 引擎 
ARCHIVE 
BLACKHOLE 
CSV 
FEDERATED 
InnoDB 
MEMORY 
MERGE 
MyISAM 
NDB 


表 1-2 MySQL 支持 的 存储 引擎 


描述 
用 于 数据 存档 〈 记 录 插 入 后 不 能 再 修改 ) 
丢弃 写 操 作 ， 读 操作 会 返回 空 内 容 
在 存储 数据 时 ， 以 逗号 分 隔 各 个 数据 项 
用 来 访问 远程 表 
支持 事务 、 行 级 锁 、 外 键 


数据 只 存储 在 内 存 ， 不 存储 在 磁盘 ; 多 用 于 临时 表 


用 来 管理 多 个 MyISAM 表 构 成 的 表 集 合 
主要 的 非 事务 处 理 存储 引擎 
MySQL 集群 专用 存储 引擎 


这 么 多 存储 引擎 ， 看 着 都 眼花 了 ， 我 们 怎么 挑 啊 。 其 实 大 家 多 虑 了 ， 我 们 最 常用 的 就 是 
InnoDB 和 MyISAM， 偶 尔 还 会 提 一 下 MEMORY。 其 中 InnoDB 是 MySQL 默认 的 存储 引擎 ， 
我 们 之 后 会 详细 啼 路 这 个 存储 引擎 的 各 种 功能 ， 现 在 先 看 一 下 部 分 存储 引擎 对 于 某 些 功能 的 支 


持 情况 ， 如 表 1-3 所 示 。 


功能 


B-tree indexes 
Backup/point-in-time recovery 
Cluster database support 
Clustered indexes 
Compressed data 

Data caches 

Encrypted data 

Foreign key support 
Full-text search indexes 
Geospatial data type support 
Geospatial indexing support 
Hash indexes 

Index caches 

Locking granularity 

MVCC 

Query cache support 
Replication support 

Storage limits 

T-tree mdexes 

Transactions 


Update statistics for data dictionary 


表 1-3 存储 引擎 对 于 某 些 功 能 的 支持 情况 


MEMORY 
下- -| 双生 -| 下 
是 -| 是 | 是 | 是 
可 | 否 上 | 百 | 和 下 
| 要 | 下 | 是 | 雪 
| 是 | 否 | 是 | 是 
否 INA | 是 | 否 
ES | 是 | 是 | 是 
三 和 -上 ，|R  | 
是 | | 要 | 是 | 否 | 
Ee 
| | 间 。 
Er 
| | 次 
Le | 有 和， 
Ei ”CO | | 
是 | | 
是 | 有 限 支 持 
256TB | RAM | 64TB | 无 存储 限制 
本 | | 和 
| | 
EN 辣 攻 ES 冯 | 是 


| 
| 
| 


EA da a ba ba ba bw 
tr 
加 
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表 1-3 密密麻麻 列 了 这 么 多 ， 看 得 让 人 头皮 发 麻 ， 目 的 就 是 想 告 诉 你 : 这 玩意 儿 很 复杂 
(其 实 表 1-3 是 我 从 MySQL 文档 中 直接 复制 过 来 的 )。 其 实 这 些 东西 大 家 没 必要 立即 记 住 ， 这 
里 主要 是 想 让 大 家 明白 不 同 的 存储 引擎 支持 不 同 的 功能 。 有 些 重要 的 功能 我 们 会 在 后 面 的 啼 思 
中 慢 慢 让 大 家 理解 。 


a pp” 一 一 - » Co 5 pr Pr [Ar Ce 
pn he A A 芋 让 和 -区 六 有 人 本 用 六 省 攻 4 
‘ ， 3 "ny" oul rd 4 a 1 加 中 下 Lu 
>: ”| | Pr ot rN 4 了 > yf 
ng InnoDB 从 A 二 
》 1 oy 1 : 
wa pe >» bp 
er ; 
ey 4 > 
上 ‘ 





18 本 
1.8.1 ”查看 当前 服务 器 程序 支持 的 存储 引擎 
我 们 可 以 用 下 面 这 个 命令 来 查看 当前 服务 器 程序 支持 的 存储 引擎 : 


SHOW ENGINES; 


mysql> SBOW ENGINES; 








| Engine | Support | Comment | Transactions | XA | Savepoints | 
| InnonB | DEFAULT | Supports transactions, row-level locking, and foreign keys | YES | YES | YES | 
| MRG MYTISAM | YES | Collection of identical MyISAM tables | NO | NO 1 | 
| MEMORY | YES | Hash based, stored in memory, useful for temporary tables | ND | RD | | 
| BLACKHOLE | YES | /dev/null storage engine (anything you write to 让 disappears) | NO | NO 1 NO | 
| MyISAM | YES | MyISAM storage engine | NO | BO | | 
| CSV | YES | CSV storage engine | NO | MO 1 | 
| ARCHIVE 1 ¥ES | Archive storage engine | NO | BO 1D | 
| PERFORMANCE SCHEMA | YES | Performnce Schema | NO 18 1 | 
| FEDERATED | NO | Federated MySQL storage engine | NULL | NULL | NULL | 





9 rows in set (0.00 sec) 


其 中 ，Support 列表 示 该 存储 引擎 是 否 可 用 ，DEFAULT 值 代表 当前 服务 器 程序 的 默认 存储 引 
擎 ; Comment 列 是 对 存储 引擎 的 一 个 描述 ; Transactions 列 代表 该 存储 引擎 是 否 支持 事务 处 理 ; XA 
列 代表 该 存储 引擎 是 否 支 持 分 布 式 事务 ; Savepoints 列 代表 该 存储 引擎 是 否 支 持 事务 的 部 分 回 滚 。 





更 > 了 和 的 刘 各 入 


和 《1 。 9 二 





1.8.2 设置 表 的 存储 引擎 


我 们 前 边 说 过 ， 存 储 引擎 是 负责 对 表 中 的 数据 进行 读 取 和 写 入 工作 的 ， 我 们 可 以 为 不 同 的 表 
设置 不 同 的 存储 引擎 。 也 就 是 说 ， 不 同 的 表 可 以 有 不 同 的 物理 存储 结构 、 不 同 的 读 取 和 写 入 方式 。 

1. 创建 表 时 指定 存储 引擎 

如 果 我 们 在 创建 表 的 语句 中 没有 指定 表 的 存储 引擎 ， 那 就 会 使 用 默认 的 存储 引擎 InnoDB 
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(当然 ， 这 个 默认 的 存储 引擎 也 是 可 以 修改 的 ， 下 一 章 中 再 说 怎么 改 )。 如 果 我 们 想 显 式 地 指定 
表 的 存储 引擎 ， 可 以 这 么 与 : 


CREATE TABLE 表 名 ( 
建 表 语句 ; 
) ENGINE = 存储 引擎 名 称 ; 


比如 我 们 想 创建 一 个 存储 引 敬 为 MyISAM 的 表 ， 可 以 这 么 写 : 


mysql> CREATE TABLE engine_ demo_table! 
-> ,2 
-> ) ENGINE = MyISAM; | 

Query OK, 0 rows affected (0.02 sec) 


2. 修改 表 的 存储 引擎 
如 果 表 已 经 建 好 了 ， 我 们 也 可 以 使 用 下 面 这 个 语句 来 修改 表 的 存储 引擎 : 
ALTER TABLE 表 名 ENGINE = 存储 引擎 名 称 ; 


比如 ， 我 们 修改 engine_demo_table 表 的 存储 引擎 : 


mysql> ALTER TABLE engine_demo table ENGINE = InnoDB; 
Query OK, 0 rows affected (0.05 sec) 
Records: 0 Duplicates: 0 Warnings: 0 


这 时 我 们 再 查看 一 下 engine demo table 的 表 结 构 : 


mysql> SHOW CREATE TABLE engine_demo_table\G 
雪 辫 全 全 全 EEE : row 计 计 讲 实 实 守 守 计 守 庄 实 实 守 宙 类 计 奖 寺 计 实 守 六 加 实 实 实 实 
Table: engine demo_table 
Create Table: CREATE TABLE ‘engine demo table'" (人 
‘i int(l11) DEFAULT NULL 
) ENGINE=InnoDB DEFAULT CHRRSET=utf8 
1 row in set (0.01 sec) 


可 以 看 到 该 表 的 存储 引擎 已 经 改 为 InnoDB 了 。 
1.9 总结 


MySQL 采用 客户 端 / 服务 器 架构 ， 用 户 通 过 客户 端 程序 发 送 增删 改 查 请 求 ， 服 务 器 程序 
收 到 请 求 后 处 理 ， 并 且 把 处 理 结果 返回 给 客户 端 。 

MySQL 安装 目录 的 bin 目录 下 存放 了 许多 可 执行 文件 ， 其 中 有 一 些 是 服务 器 程序 〈 比 如 
mysqld、mysqld_safe)， 有 一 些 是 客户 端 程序 (比如 mysql、mysqladmin )。 

在 类 UNIX 系统 上 启动 服务 器 程序 的 方式 有 下 面 这 些 : 

@ Imysqld; 

@ mysqld safe; 

@ mysql.server; 

® mysqld mult 。 
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其 中 InnoDB 是 服务 器 程序 的 默认 存储 引擎 。 
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在 Windows 系统 上 启动 服务 器 程序 的 方式 有 下 面 这 些 : 
@ mysgld; 
e@ 将 mysqld 注册 为 Windows 服务 。 


启动 客户 端 程序 时 常用 的 语法 如 下 : 


mysql -h 主 机 名 ”-u 用 户 名 -~p 密 码 


客户 端 进程 和 服务 器 进程 在 通信 时 采用 下 面 几 种 方式 : 

© TCP/IP:; 

e@e 命名 管道 或 共享 内 存 ; 

e UNIX 域 套 接 字 。 

以 查询 请 求 为 例 ， 服 务 器 程序 在 处 理 客 户 端 发 送 过 来 的 请 求 时 ， 大 致 分 为 以 下 几 个 部 分 。 
e 连接 管理 : 主要 负责 连接 的 建立 与 信息 的 认证 。 

e@ 解析 与 优化 : 主要 进行 查询 缓存 、 语 法 解析 、 查 询 优化 。 

e 存储 引擎 : 主要 负责 读 取 和 写 入 底层 表 中 的 数据 。 

MySQL 支持 的 存储 引擎 有 好 多 种 ， 它 们 的 功能 各 有 侧重 ， 我 们 常用 的 就 是 InoDB 和 MYISAM 


存储 引擎 的 一 些 常用 用 法 如 下 所 示 : 
e@e 查看 当前 服务 器 程序 支持 的 存储 引擎 : 

SHOW ENGINES; 
e 创建 表 时 指定 表 的 存储 引擎 : 

CREATE TABLE 表 名 ( 

建 表 语句 ; 

) ENGINE = 存储 引擎 名 称 ; 

@ 修改 表 的 存储 引擎 : 


ALTER TABLE 表 名 ENGINE = 存储 引擎 名 称 ; 
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2.1 局 动 选项 和 配置 文件 


大 家 应 该 都 在 手机 中 发 现 过 一 个 “设置 ”功能 ， 通 过 这 个 功能 可 以 设置 手机 的 来 电 铃声 、 
音量 大 小 、 解 锁 密 码 等 。 假 如 没有 这 个 设置 功能 ， 我 们 的 生活 将 置 于 尴 低 的 境地 。 比 如 ， 在 图 
书馆 里 无 法 把 手机 设置 为 静音 ， 无 法 把 流量 开关 关 掉 以 节省 流量 ， 在 别人 得 知 解锁 密码 后 无 法 
更 改 密 码 .MySQL 的 服务 器 程序 和 客户 端 程序 也 有 很 多 设置 项 ， 比 如 对 于 MySQL 服务 器 程序 ， 
我 们 可 以 指定 允许 同时 连 入 的 客户 端 数量 、 客 户 端 和 服务 器 的 通信 方式 、 表 的 默认 存储 引擎 、 
查询 缓存 的 大 小 等 信息 。 对 于 MySQL 客户 端 程序 ， 我 们 之 前 已 经 见识 过 了 ， 可 以 指定 需要 连 
接 的 服务 器 程序 所 在 主机 的 主机 名 或 全 地 址 、 用 户 名 及 密码 等 信息 。 

这 些 设 置 项 一 般 都 有 各 自 的 默认 值 ， 比 如 服务 器 允许 同时 连 入 的 客户 端的 默认 数量 是 
151， 表 的 默认 存储 引擎 是 InnoDB。 我 们 可 以 在 程序 启动 的 时 候 修改 这 些 默认 值 ， 对 于 这 
种 在 程序 启动 时 指定 的 设置 项 也 称 之 为 启动 选项 〈startup option) ， 这 些 选 项 控制 着 程序 局 
动 后 的 行为 。 在 MySQL 安装 目录 的 bin 目录 下 的 各 种 可 执行 文件 ， 无 论 是 服务 器 相关 的 
程序 (比如 mysqld、mysqld_safe) 还 是 客户 端 相 关 的 程序 〈 比 如 mysql、mysqladmin ) ， 
在 启动 时 基本 都 可 以 指定 启动 选项 。 这 些 启动 选项 可 以 在 命令 行 中 指定 ， 也 可 以 在 配置 文 
件 中 指定 。 

下 面 我 们 以 mysqld 为 例 ， 来 详细 路 劝 一 下 指定 启动 选项 的 格式 。 


2.1.1 在 命令 行 上 使 用 选项 


前 文 说 过 ， 服 务 器 进程 和 客户 端 进程 之 间 的 通信 有 多 种 形式 。 如 果 我 们 想 在 启动 服务 器 程 
序 时 就 禁止 各 客户 端 使 用 TCP/IP 网 络 进 行 通信 ， 可 以 在 启动 服务 器 程序 的 命令 行 中 添加 skip- 
networking 启动 选项 ， 就 像 下 面 这 样 : 


mysqld -~-skip-networking 


可 以 看 到 ， 在 命令 行 中 指定 启动 选项 时 需要 在 选项 名 前 加 上 -- 前 级 。 另 外 ， 如 果 选 项 名 是 
由 多 个 单词 构成 的 ， 它 们 之 间 可 以 由 短 划 线 - 连接， 也 可 以 使 用 下 划 线 _ 连接 ， 也 就 是 说 skip- 
networking 和 skip_networking 表示 的 含义 是 相同 的 。 上 面 的 写法 与 下 面 的 写法 是 等 价 的 : 


mysqgqld -~--skip networking 


在 按照 上 述 命令 启动 服务 器 程序 后 ， 如 果 再 使 用 mysql 来 启动 客户 端 程序 ， 把 服务 器 主机 
名 指定 为 127.0.0.1 (IP 地 址 的 形式 ) 的 话 会 显示 连接 失败 : 


一 一 
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mysql -hi27.0.0.1 -uroot -p 
Enter password: 


ERROR 2003 (HY000): Can't connect to MYSQL server on IR O01 401) 


启动 客户 端 程序 时 ， 在 二 参数 后 边 紧 跟 服务 器 的 全 地址 ， 这 就 意味 着 客户 端 要 求 和 服务 
器 之 间 通 过 TCP/IP 网 络 进行 通信 。 而 此 时 连接 失败 的 结果 也 就 意味 着 我 们 在 启动 服务 器 时 指 
定 的 启动 选项 skip-networking 生效 了 。 

再 举 一 个 例子 ， 我 们 前 边 说 过 ， 如 果 在 创建 表 的 语句 中 没有 显 式 指定 表 的 存储 引擎 ， 那 就 
会 默认 使 用 InnoDB 作为 表 的 存储 引擎 。 如 果 我 们 想 改 变 表 的 默认 存储 引擎 ， 可 以 在 黑 框 框 中 
输入 下 面 这 样 的 启动 服务 器 的 命令 : 


mysqld --default-storage-engine=MyISAM 


我 们 现在 就 已 经 把 表 的 默认 存储 引擎 改 为 MyISAM 了 。 在 客户 端 程序 连接 到 服务 器 程序 
后 试 着 创建 一 个 表 : 


mysql> CREATE TABLE default_ storage engine_demo( 
-> i INT 
a 

Query OK, 0 rows affected (0.02 sec) 


这 个 表 定 义 语句 中 并 没有 明确 指定 表 的 存储 引擎 ， 在 表 创 建成 功 后 再 看 一 下 这 个 表 的 结构 : 


mysql> SHOW CREATE TABLE default_storage engine demo\G 
直击 再 责 重 南 二 下 天 二 疝 市 二 坪 市直 有 再 至 凋 去 庆 疝 再 实 严 六 ; row 实 守 庄 训 高 庄 计 庙 实 计 刘 计 计 计 守 守 交加 实 二 详实 计 守 寺 守 二 
Table: default storage engine_ demo 
Create Table: CREATE TABLE 'default _ storage engine demo' | 
'i' int(11) DEFAULT NULL 
) ENGINE=MyISAM DEFAULT CHARSET=utf8 
1 row in set (0.01 sec) 


可 以 看 到 该 表 的 存储 引擎 已 经 是 MyISAM 了 ， 这 说 明 我 们 配置 的 启动 选项 default-storage- 


engine 生效 了 。 
总 结 一 下 ， 在 启动 服务 器 程序 的 命令 行 后 边 指定 启动 选项 的 通用 格式 就 是 这 样 的 : 
-_ -启动 选项 1 [= 值 1] -- 启 动 选项 2 [= 值 2] . . ，-- 启 动 选 项 n [= 值 n] 


也 就 是 说 ， 我 们 可 以 将 各 个 启动 选项 写 到 一 行 中 ， 每 一 个 启动 选项 名 称 前 边 添加 -， 各 个 局 
动 选项 之 间 使 用 空白 字符 隔 开 。 对 于 不 需要 值 的 启动 选项 ， 比 如 skip-networking， 它 们 就 不 需要 
指定 对 应 的 值 。 对 于 需要 指定 值 的 启动 选项 ， 比 如 default-storage-engine， 则 在 指定 这 个 局 动 选 
项 的 时 候 需 要 显 式 指定 它 的 值 ， 比 如 InnoDB、MyISAM 什么 的 。 在 命令 行 中 指定 有 值 的 局 动 选 
项 时 需要 注意 ， 选 项 名 、=、 选 项 值 之 间 不 可 以 有 空白 字符 ， 比 如 写成 下 面 这 样 就 是 不 正确 的 : 


mysqld -~default-storage-engine = MyISAM 


每 个 MySQL 程序 都 支持 许多 不 同 的 选项 。 大 多 数 程序 提供 了 一 个 --help 选项 ， 可 以 用 来 
查看 该 程序 支持 的 全 部 启动 选项 以 及 它们 的 默认 值 。 例 如 ， 使 用 mysql --help 可 以 看 到 mysql 
程序 支持 的 启动 选项 ， 使 用 mysqld_safe --help 可 以 看 到 mysqld_safe 程序 支持 的 启动 选项 。 不 
过 查看 mysqld 支持 的 启动 选项 有 些 特别 ， 需 要 使 用 mysqld --verbose --help。 
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选项 的 长 形式 和 短 形 式 
我 们 前 面 提 到 的 skip-networking、default-storage-engine 这 些 启动 选项 都 是 长 形式 的 选项 
(因为 它们 很 长 )， 设 计 MySQL 的 大 叔 为 了 方便 我 们 使 用 ， 对 于 一 些 常 用 的 选项 提供 了 短 形式 。 


我 们 列举 一 些 具 有 短 形式 的 启动 选项 来 软 酌 “MySQL 支持 的 短 形式 选项 太 多 了 ， 篇 幅 所 限 ， 
这 里 不 全 部 列 出 ) ， 如 表 2-1 所 示 。 


表 2-1 选项 的 长 形式 、 短 形式 及 其 含义 


长 形式 短 形式 含义 
ET Ete 
= EE Dz 
| | sm 
mm 和 | _ 
ee ET 


短 形式 的 选项 名 只 有 一 个 字母 ， 与 使 用 长 形式 选项 时 需要 在 选项 名 前 加 两 个 短 划 线 -- 不 
同 的 是 ， 使 用 短 形式 选项 时 在 选项 名 前 只 加 一 个 短 划 线 - 前 级 。 有 一 些 短 形式 的 选项 之 前 已 
经 接触 过 了 ， 比 如 我 们 在 启动 服务 器 程序 时 通过 添加 短 形式 的 选项 -P 来 指定 监听 的 端口 号 : 


mysqld ~P3307 


使 用 短 形式 选项 时 ， 选 项 名 和 选项 值 之 间 可 以 没有 间隙 ， 也 可 以 用 空白 字符 隔 开 〈-p 选 
项 有 些 特殊 ，-p 和 密码 值 之 间 不 能 有 空白 字符 )。 也 就 是 说 上 面 的 命令 和 下 面 的 是 等 价 的 : 


mysqld -P 3307 
另外 ， 选 项 名 是 区 分 大 小 写 的 ， 比 如 -p 和 -P 选项 拥有 完全 不 同 的 含义 ， 大 家 需要 注意 。 
2.1.2 配置 文件 中 使 用 选项 


在 命令 行 中 设置 的 启动 选项 只 对 当 次 启动 生效 ， 也 就 是 说 如 果 下 一 次 重启 程序 的 时 候 我 们 
还 想 保 留 这 些 启 动 选 项 ， 还 得 重复 把 这 些 选项 写 到 启动 命令 行 中 ， 这 样 真 的 神 烦 ! 于 是 设计 
MySQL 的 大 叔 提 出 了 一 个 配置 文件 〈 也 称 为 选项 文件 ) 的 概念 ， 我 们 把 需要 设置 的 启动 选项 
都 写 在 这 个 配置 文件 中 ， 每 次 启动 服务 器 时 都 从 这 个 文件 中 加 载 相应 的 启动 选项 。 由 于 这 个 配 
置 文件 可 以 长 久 地 保存 在 计算 机 的 硬盘 中 ， 所 以 我 们 只 需 配置 一 次 ， 以 后 就 不 用 显 式 地 把 局 动 
选项 都 写 在 启动 命令 行 中 了 。 所 以 推荐 使 用 配置 文件 的 方式 来 设置 启动 选项 。 

1， 配 置 文件 的 路 径 | 


MySQL 程序 在 启动 时 会 在 多 个 路 径 下 寻找 配置 文件 ， 这 些 路 径 有 的 是 固定 的 ， 有 的 可 


以 在 命令 行 中 指定 。 根 据 操作 系统 的 不 同 ， 寻 找 配置 文件 的 路 径 也 有 所 不 同 ， 我 们 分 别 看 
ee 


Windows 操作 系统 的 配置 文件 
在 Windows 操作 系统 中 ，MySQL 会 按照 表 2-2 所 示 的 路 径 依 次 寻找 配置 文件 。 


一 
se 
一 一 





i 
i 
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表 2-2 Windows 操作 系统 中 配置 文件 的 路 径 
路 径 名 备注 


%WINDIR%\my.ini, %WINDIRY%\my.cnf 
C:\my.ini, C:\my.cnf 


BASEDIR\my.ini, BASEDIR\my.cnf 
defaults-extra-file 命令 行 指定 的 额外 配置 文件 路 径 
%APPDATA%\MySQL\ mylogin.cnf 登录 路 径 选 项 ( 仅 限 客户 端 ) 


下 


在 阅读 Windows 操作 系统 下 的 这 些 配置 文件 路 径 时 ， 需 要 注意 下 面 这 些 事情 。 
e 在 给 定 的 前 3 个 路 径 中 ， 配 置 文件 可 以 使 用 .ini 的 扩展 名 ， 也 可 以 使 用 .cnf 的 扩展 名 。 
e %WINDIR% 指 的 是 你 的 机 器 上 Windows 目录 的 位 置 ， 通 常 是 C:\WINDOWS。 如 果 不 


确定 ， 可 以 使 用 echo %WINDIR% 命令 来 查看 。 

BASEDIR 指 的 是 MySQL 安装 目录 的 路 径 ， 在 我 的 Windows 机 器 上 ，BASEDIR 的 值 
是 C:\Program Files\MySQLNMYSQL Server 5.7\。 

第 四 个 路 径 指 的 是 在 启动 程序 时 可 以 通过 指定 defaults-extra-file 启动 选项 的 值 来 添加 额 
外 的 配置 文件 路 径 。 比 如 ， 我 们 在 命令 行 中 可 以 这 么 写 : 


mysqld -~-defaults-extra-file=C:\Users\xiaohaizi4919\my extra file.txt 


这 样 MySQL 服务 器 在 启动 时 就 可 以 额外 在 C:\Users\xiaohaizi4919\my extra file.txt 路 
径 下 查找 配置 文件 。 

%APPDATA% 表示 Windows 应 用 程序 数据 目录 的 值 ， 可 以 使 用 echo %APPDATA% 命 
令 查看 。 

表 2-2 中 最 后 一 个 名 为 .mylogin.cnf 的 配置 文件 有 点 儿 特 殊 ， 它 不 是 一 个 纯 文本 文件 
(其 他 的 配置 文件 都 是 纯 文 本 文件 ) ， 而 是 使 用 mysql config editor 实用 程序 创建 的 加 
密 文件 。 这 个 文件 只 能 包含 一 些 在 启动 客户 端 程序 时 用 于 连接 服务 器 的 选项 ， 包 括 
host、user、password、port 和 socket， 而 且 它 只 能 被 客户 端 程序 所 使 用 。 


注 : / mysqL config_editor 实用 程序 其 实 是 MySQL 安装 目录 的 bin' 目 录 下 的 二 个 可 执行 广 
件 ， 


这 个 实用 程序 有 专用 的 语法 来 生成 或 修改 mylogin.cnf 文件 中 的 内 本 -如 何 使 用 这 


小 贴 士 个 程序 不 是 我 们 讨论 的 主题 ， 大 家 可 以 到 MySQE 的 官方 文档 中 查看 


类 UNIX 操作 系统 中 的 配置 文件 
在 类 UNIX 操作 系统 中 ，MySQL 会 按照 表 2-3 所 示 的 路 径 来 依次 寻找 配置 文件 。 


表 2-3 类 UNIX 操作 系统 中 配置 文件 的 路 径 
路 径 名 备注 


/etc/my.cnf 
/etc/mysql/my.cnf 
SYSCONFDIR/my.cnf 


po ee 





续 表 
路 径 名 备注 
SMYSQL HOME/my.cnf 特定 于 服务 器 的 选项 〈 仅 限 服务 器 ) 
defaults-extra-file 命令 行 指定 的 额外 配置 文件 路 径 
~/.my.cnf 特定 于 用 户 的 选项 
~/.mylogin.cnf 特定 于 用 户 的 登录 路 径 选 项 〈 仅 限 客户 端 ) 


同样 ， 在 阅读 类 UNIX 操作 系统 下 的 这 些 配 置 文件 路 径 时 ， 需 要 注意 下 面 这 些 事情 。 
e SYSCONFDIR 表示 在 使 用 CMake 构建 MySQL 时 使 用 SYSCONFDIR 选项 指定 的 目录 。 


9: 如 果 你 不 懂 哈 是 CMake， 哈 是 编译 ， 那 就 中 过 吧 ， 这 对 理解 后 续 的 文章 没 只 影响 


e MYSQL HOME 是 一 个 环境 变量 ， 该 变量 的 值 是 我 们 自己 设置 的 〈 想 设置 就 设置 ， 不 
想 设置 就 不 设置 )。 该 变量 的 值 代表 一 个 路 径 ， 我 们 可 以 在 该 路 径 下 创建 一 个 my.cnf 
配置 文件 ， 这 个 配置 文件 中 只 能 放置 与 启动 服务 器 程序 相关 的 选项 〈.mylogin.cnf 只 能 
存放 客户 端 相关 的 一 些 选 项 ， 除 .mylogin.cnf 以 及 $MySQL _ HOME/my.cnf 配 置 文件 外 ， 
其 余 配 置 文件 既 可 以 存放 服务 器 相关 的 选项 ， 也 可 以 存放 客户 端 相关 的 选项 )。 


< 如 果 使 用 mysqld_safe 启动 服务 器 程序 ， 而 且 我 们 也 没有 主动 设置 这 个 MySQL 
的 :HOME 环境 变量 的 值 ， 那 么 这 个 环境 变量 的 值 将 自动 被 设置 为 MySQL 的 安装 上 好 ， 包 
小 贴 士 “就 是 MySQL 服务 器 将 会 在 安装 目录 下 查找 名 为 -my.cnf 的 配置 文件 . 


e@ 表 2-3 中 最 后 两 个 以 ~ 开头 的 路 径 是 用 户 相 关 的 。 类 UNIX 系统 中 都 有 一 个 当前 登录 
用 户 的 概念 ， 每 个 用 户 都 可 以 有 一 个 用 户 目 录 ，~ 就 代表 这 个 用 户 目录 。 大 家 可 以 查看 
HOME 环境 变量 的 值 来 确定 当前 用 户 的 用 户 目录 。 比 如 ， 我 的 macOS 机 器 上 的 用 户 目 
录 就 是 /Users/xiaohaizi4919。 之 所 以 说 表 2-3 中 最 后 两 个 配置 文件 是 用 户 相 关 的 ， 是 因 
为 不 同 的 类 UNIX 系统 的 用 户 都 可 以 在 自己 的 用 户 目 录 下 创建 .my.cnf 或 者 .mylogin.cnf。 
换 句 话说 ， 不 同 登录 用 户 使 用 的 .my.cnf 或 者 .mylogin.cnf 配置 文件 是 不 同 的 。 
e@ defaults-extra-file 的 含义 与 Windows 中 的 一 样 ， 不 再 装 述 。 
e .mylogin.cnf 的 含义 也 同 Windows 中 的 一 样 。 再 次 强调 一 遍 ， 它 不 是 纯 文 本 文件 ， 只 
能 使 用 mysql config editor 实用 程序 去 创建 或 修改 ， 用 于 存放 客户 端 登录 服务 器 时 的 
相关 选项 。 
总 之 ， 在 我 的 计算 机 中 ， 这 几 个 路 径 中 的 任意 一 个 都 可 以 当 作 配置 文件 来 使 用 。 如 果 它 们 
不 存在 ， 可 以 手动 创建 一 个 。 比 如 ， 在 ~/.my.cnf 路 径 下 手动 创建 一 个 配置 文件 。 
另外 ， 我 们 在 踪 奶 如 何 启 动 MySQL 服务 器 程序 的 时 候 说 过 ， 使 用 mysqld_safe 程序 局 
动 服务 器 时 ， 会 调用 mysqld。 对 于 传递 给 mysqld_safe 的 启动 选项 来 说 ， 如 果 mysqld_safe 程 
序 不 处 理 ， 则 会 传递 给 mysqld 程序 处 理 。 比 如 ，skip-networking 选项 是 由 mysqld 处 理 的 ， 
mysqld safe 并 不 处 理 ， 但 是 如 果 我 们 在 命令 行 上 执行 下 面 的 命令 : 


es 
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mysqld safe --skip-networking 


则 在 mysqld_safe 调用 mysqld 时 ， 会 把 它 处 理 不 了 的 这 个 skip-networking 选项 交 给 mysqld 
处 理 。 


2. 配置 文件 的 内 容 
与 在 命令 行 中 指定 启动 选项 不 同 的 是 ， 配 置 文件 中 的 启动 选项 被 划分 为 者 干 个 组 ， 每 个 组 
有 一 个 组 名 ， 用 中 括号 口 扩 起 来 ， 像 下 面 这 样 : 


[SerVer] 


(具体 的 启动 选项 . . .) 


[mysqld] 
(具体 的 启动 选项 . . .) 


[mysgqld_ safe]) 
(具体 的 启动 选项 . . . ) 


[client] 


(具体 的 启动 选项 . . .) 


[mysql] 
(具体 的 启动 选项 . . .) 


[mysqladmin] 
(具体 的 启动 选项 . . - ) 


上 面 这 个 配置 文件 里 就 定义 了 许多 个 组 ， 组 名 分 别 是 server、mysqld、mysqld safe、client、 
mysql、mysqladmin。 每 个 组 下 边 可 以 定义 若干 个 启动 选项 。 我 们 以 [server] 组 为 例 来 看 一 下 填 
写 局 动 选 项 的 形式 〈 其 他 组 中 局 动 选项 的 形式 是 一 样 的 ): 

[SerVez] 


optionl # 这 是 option1， 该 选项 不 需要 选项 值 
option2 = value2 # 这 是 option2， 该 选项 需要 选项 值 


在 配置 文件 中 指定 启动 选项 的 语法 类 似 于 命令 行 语法 ， 但 是 在 配置 文件 中 只 能 使 用 长 形 
式 的 选项 ， 而 且 在 配置 文件 中 指定 的 启动 选项 不 允许 加 -- 前 缀 ， 并 且 每 行 只 指定 一 个 选项 ， 
等 号 = 周围 可 以 有 空白 字符 (在 命令 行 中 ， 选 项 名 、=、 选 项 值 之 间 不 允许 有 空白 字符 )。 另 
外 ， 在 配置 文件 中 ， 我 们 可 以 使 用 # 来 添加 注释 ， 从 # 出现 直到 行 尾 的 内 容 都 属于 注释 内 容 ， 
MySQL 程序 会 忽略 这 些 注释 内 容 。 

为 了 让 大 家 更 容易 对 比 在 命令 行 和 配置 文件 中 指定 启动 选项 的 区 别 ， 我 们 再 把 在 命令 行 中 
指定 option1 和 option2 两 个 选项 的 格式 写 一 遍 看 看 : 


~-OpPtionl -~~option2=value2 


在 配置 文件 中 ， 不 同 的 选项 组 是 给 不 同 的 程序 使 用 的 。 如 果 选 项 组 名 称 与 程序 名 称 相同 ， 
则 组 中 的 选项 将 专门 应 用 于 该 程序 。 例 如 ，[mysqld] 和 [mysql] 组 分 别 应 用 于 mysqld 服务 器 程 
序 和 mysql 客户 端 程序 。 不 过 有 两 个 选项 组 比较 特别 : 


hh 本 和， "| 


2.1 启动 选项 和 配置 文件 。 25 


@ [server] 组 下 面 的 启动 选项 将 作用 于 所 有 的 服务 器 程序 ; 
e [client] 组 下 面 的 启动 选项 将 作用 于 所 有 的 客户 端 程序 。 
需要 注意 的 一 点 是 ，mysqld_safe 和 mysql.server 这 两 个 程序 在 启动 时 都 会 读 取 [mysqld] 选 


项 组 中 的 内 容 。 为 了 直观 感受 一 下 ， 我 们 挑 一 些 程序 来 看 看 它们 能 读 取 的 选项 组 都 有 哪些 〈 见 
表 2-4)。 


表 2-4 程序 的 对 应 类 别 和 能 读 取 的 组 
ed ph Ce ee 
i 


mysql 启动 客户 端 [mysql]、[client] 
mysqladmin 启动 客户 端 [mysqladmin]、[client] 
mysqldump 启动 客户 端 [mysqldump]、[client] 


现在 以 macOS 操作 系统 为 例 ， 在 /etc/mysql/my.cnf 配置 文件 中 添加 一 些 内 容 (如 果 大 家 
使 用 的 是 Windows 系统 ， 请 自行 参考 前 文 提 到 的 配置 文件 路 径 ): 


[server] 
skip-networking 
default-storage-engine=MyISAM 


然后 直接 用 mysqld 启动 服务 器 程序 : 


mysgld | 


虽然 在 命令 行 中 没有 添加 启动 选项 ， 但 是 在 程序 启动 时 ， 会 默认 地 到 我 们 上 面 提 到 的 配置 
文件 路 径 下 查找 配置 文件 ， 其 中 就 包括 /etc/mysqlmy.cnf。 又 由 于 mysqld 命令 可 以 读 取 [server] 
选项 组 的 内 容 ， 所 以 skip-networking 和 default-storage-engine=MyISAM 这 两 个 选项 是 生效 的 。 
大 家 可 以 把 这 些 启动 选项 放 在 [client] 组 中 ， 然 后 再 试 试 用 mysqld 启动 服务 器 程序 ， 看 看 里 面 
的 启动 选项 是 否 生效 〈 剧 透 一 下 ， 不 生效 )。 


3. 特定 MySQL 版 本 的 专用 选项 组 

我 们 可 以 在 选项 组 的 名 称 后 加 上 特定 的 MySQL 版 本 号 。 比 如 对 于 [mysqld] 选项 组 来 说 ， 
我 们 可 以 定义 一 个 [mysqld-5.7] 的 选项 组 。 它 的 含义 和 [mysqld] 一 样 ， 只 不 过 只 有 版 本 号 为 5.7 
的 mysqld 程序 才能 使 用 这 个 选项 组 中 的 选项 。 

4. 配置 文件 的 优先 级 


我 们 前 面 嘴 明 过 ，MySQL 将 在 某 些 固定 的 路 径 下 搜索 配置 文件 。 我 们 也 可 以 通过 在 命令 
行 中 指定 defaults-extra-file 启动 选项 来 指定 额外 的 配置 文件 路 径 。MySQL 将 按照 表 2-2 或 表 2-3 
中 给 定 的 顺序 (具体 取决 于 所 用 的 操作 系统 ) 依次 读 取 各 个 配置 文件 。 如 果 该 文件 不 存在 ， 则 


et 
Ee ee 
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忽略 。 值 得 注意 的 是 ， 如 果 我 们 在 多 个 配置 文件 中 设置 了 相同 的 启动 选项 ， 则 以 最 后 一 个 配置 
文件 中 的 为 准 。 比 如 /etc/my.cnf 文件 的 内 容 是 这 样 的 : 


[SerVer] 
default-storage-engine=InnoDB 


而 ~/my.cnf 文 件 中 的 内 容 是 这 样 的 : 


[server] 
default-storage-engine=MyISAM 


又 因为 ~/.my.cnf 比 /etc/my.cnf 顺序 靠 后 ， 因 此 ， 若 两 个 配置 文件 中 出 现 相同 的 启动 选项 ， 将 
以 ~/.my.cnf 中 的 为 准 。 所 以 ， 在 MySQL 服务 器 程序 启动 之 后 ，default-storage-engine 的 值 就 
是 MyISAM。 


5. 同一 个 配置 文件 中 多 个 组 的 优先 级 

我 们 说 同一 个 程序 可 以 访问 配置 文件 中 的 多 个 组 ， 比 如 mysgld 可 以 访问 [mysqld]、[server] 
组 。 如 果 在 同一 个 配置 文件 中 (比如 ~/.my.cnf)， 在 [mysqld]、[server] 组 里 出 现 了 同样 的 启动 
选项 ， 比 如 下 面 这 样 : . 


[server] 
default-storage-engine=InnoDB 


[mysqld] 

default-storage-engine=MyISAM 
那么 ， 将 以 最 后 一 个 出 现 的 组 中 的 启动 选项 为 准 。 比 如 ， 在 上 面 的 例子 中 ，default-storage- 
engine 既 出 现在 [server] 组 也 出 现在 [mysqld] 组 ， 由 于 [mysqld] 组 在 [server] 组 后 边 ， 所 以 将 
以 [mysqld] 组 中 的 配置 项 为 准 。 


6. defaults-flle 的 使 用 


如 果 我 们 不 想 让 MySQL 到 默认 的 路 径 下 搜索 配置 文件 ， 则 可 以 在 命令 行 指定 defaults-file 
选项 ， 比 如 下 面 这 样 〈 以 类 UNIX 系统 为 例 ): 


mysqld -~-defaults-file=/tmp/mycontfig .txt 
这 样 一 来 ， 在 程序 启动 时 将 只 在 /tmp/myconfig.txt 路 径 下 搜索 配置 文件 。 如 果 文 件 不 存在 
或 无 法 访问 ， 则 会 发 生 错 误 。 


~、 注意 defatlts-extra-fle 和 defaults-file 的 区 别 ， 使 用 defaults-extra-file 可 以 指定 额外 


、 


小 幅 十 的 配置 文件 路 径 (也 就 是 说 那些 固定 的 配置 文件 路 径 也 会 被 搜索 )。 





2.1.3 在 命令 行 和 配置 文件 中 启动 选项 的 区 别 


在 命令 行 中 指定 的 绝 大 部 分 启动 选项 都 可 以 放 到 配置 文件 中 ， 但 是 有 一 些 选 项 是 专门 为 命 
令 行 设计 的 ， 比 如 defaults-extra-file、defaults-file 这 样 的 选项 本 身 就 是 为 了 指定 配置 文件 路 径 


”es 
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的 ， 如 果 再 放 在 配置 文件 中 使 用 就 没 哈 意 义 了 。 剩 下 的 一 些 只 能 用 到 命令 行 中 而 不 能 用 到 配置 


文件 中 的 启动 选项 就 不 一 一 列举 了 ， 等 到 用 的 时 候 再 提 (本 书 中 用 不 到 ， 有 兴趣 的 读者 请 移 步 
到 官方 文档 )。 


娘 外 有 一 点 需要 特别 注意 : 如 果 同 一 个 启动 选项 既 出 现在 命令 行 中 ， 义 出 现在 配置 文件 
中 ， 那 么 以 命令 行 中 的 启动 选项 为 准 ! 比如 我 们 在 配置 文件 中 写 了 : 


[server] 
default-storage-engine=InnoDB 


而 我 们 的 启动 命令 是 : 


mysdqld -~default-storage-engine=MyISAM 


那么 ， 最 后 default-storage-engine 的 值 就 是 MyISAM ! 


2.2 系统 变量 


2.2.1 系统 变量 简介 


MySQL 服务 器 程序 在 运行 过 程 中 会 用 到 许多 影响 程序 行为 的 变量 ， 它们 被 称 为 系统 变 
量 。 比 如 ， 人 允许 同时 连 入 的 客户 端 数量 用 系统 变量 max_connections 表示 ; 表 的 默认 存储 引擎 
用 系统 变量 default_ storage_engine 表示 ; 查询 缓存 的 大 小 用 系 统 变 量 query_cache size 表示 。 
MySQL 服务 器 程序 的 系统 变量 有 好 几 百 个 ， 这 里 不 再 一 一 列举 。 每 个 系统 变量 都 有 一 个 默认 
值 ， 我 们 可 以 使 用 命令 行 或 者 配置 文件 中 的 选项 在 启动 服务 器 时 改变 一 些 系统 变量 的 值 。 大 多 
数 系统 变量 的 值 也 可 以 在 程序 运行 过 程 中 修改 ， 而 无 须 停止 并 重新 启动 服务 器 ， 


2.2.2 查看 系统 变量 
我 们 可 以 使 用 下 列 命令 查看 MySQL 服务 器 程序 支持 的 系统 变量 以 及 它们 的 当前 值 : 
SHOW VARIABLES [LIKE 匹配 的 模式 ] ; 


由 于 系统 变量 实在 太 多 了 ， 如 果 我 们 直接 使 用 SHOW VARIABLES 查看 的 话 ， 就 直接 在 屏幕 
上 刷 屏 了 ， 所 以 通常 都 会 使 用 一 个 LIKE 表达 式 来 指定 过 滤 条 件 ， 比 如 这 么 写 : 


mysql> SHOW VARIABLES LIKE ‘default_storage_engine'; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 
| Variable name | Value | 
-= 中 一 一 一 上 -= 一 二 二 
| default storage engine | InnoDB | 
十 一 一 一 一 一 -一 ~ 一 一 一 一 ~ 一 - 一 -一 -一 -- 一 一 - 十 一 一 一 ~ 一 一 一 一 十 


1] row in set (0.01 sec) 


mysql> SHOW VARIABLES like 'max_connections'; 
+-———~~- 一 一 一 一 一 -一 一 一 一 一 + 一 一 一 一 一 一 一 一 
| Variable name | Value | 
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二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 四 
| max_connections | 151 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
1 row in set (0.00 sec) 


可 以 看 到 ， 现 在 服务 器 程序 使 用 的 默认 存储 引 警 就 是 InnoDB， 人 允许 同时 连接 的 客户 端 数 
量 最 多 为 151。 





别 忘 了 LIKE 表达 式 中 可 以 使 用 通配符 来 进行 模 由 查询 也 就 是 说 我 们 可 以 这 么 与 : 


mysql> SHOW VARIABLES LIKE "default$ " ; 

+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 ~ 一 一 一 一 一- 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| default authentication plugin | mysql native password | 


| default password lifetime | 0 | 
| default storage engine | InnoDB | 
| default tmp_storage engine | InnoDB | 
| default week_ format | 0 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


5 rows in set (0.01 sec) 


这 样 就 查 出 了 所 有 以 default 开头 的 系统 变量 的 值 。 
2.2.3 ”设置 系统 变量 


1. 通过 启动 选项 设置 
大 部 分 系统 变量 都 可 以 通过 在 启动 服务 器 时 传送 启动 选项 的 方式 来 设置 。 如 何 填 写 局 动 选 
项 我 们 在 前 面 已 经 花 了 大 量 篇 幅 来 啼 嘱 了 人 ， 其 实 就 是 下 面 这 两 种 方式 : 
e@ 通过 命令 行 添加 启动 选项 。 
比方 说 在 启动 服务 器 程序 时 用 这 个 命令 : 


mysqld --default-storage-engine=MyISAM --max-connections=10 


e 通过 配置 文件 添加 启动 选项 。 
可 以 这 样 填写 配置 文件 : 
[server] 


default-storage-engine=MyISAM 
max-connections=10 


当 使 用 上 面 的 任何 一 种 方式 启动 服务 器 程序 后 ， 再 来 看 一 下 系统 变量 的 值 : 


mysql> SHOW VARIABLES LIKE 'default_storage_engine ' ; 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 - 
| Variable name | Value | 








I 


> | 
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二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 ~ 一 一 一 一 一 + 
| default storage engine | MyISAM | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 -一 一 一 一 一 + 
1 row in set (0.00 sec) 


—— 


mysql> SHOW VARIABLES LIKE '‘'max_connections'; 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 - 

| Variable name | Value | 

+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 

| max connections | 10 | 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 和 

1 row jn set (0.00 sec) 


可 以 看 到 default storage engine 和 max connections 这 两 个 系统 变量 的 值 已 经 被 修改 了 。 
需要 注意 的 一 点 是 ， 对 于 启动 选项 来 说 ， 如 果 启 动 选 项 名 由 多 个 单词 组 成 ， 各 个 单词 之 间 用 短 
划 线 〈-) 或 者 下 划 线 〈_) 连接 起 来 都 可 以 ; 但 是 对 于 对 应 的 系统 变量 来 说 ， 各 个 单词 之 间 必 
须 使 用 下 划 线 (_) 连接 起 来 。 


2. 服务 器 程序 运行 过 程 中 设置 
对 于 大 部 分 系统 变量 来 说 ， 它 们 的 值 可 以 在 服务 器 程序 运行 过 程 中 进行 动态 修改 而 无 须 停 止 并 
重启 服务 器 。 不 过 系统 变量 有 作用 范围 之 分 ， 下 面 详细 啼 明 一 下 。 
(1) 设置 不 同 作用 范围 的 系统 变量 
我 们 前 面 说 过 ， 多 个 客户 端 程序 可 以 同时 连接 到 一 个 服务 器 程序 。 对 于 同一 个 系统 变量 ， 我 们 
有 时 想 让 不 同 的 客户 端 有 不 同 的 值 。 比 方 说 狗 哥 使 用 客户 端 A， 他 想 让 当前 客户 端 对 应 的 默认 存储 
。 ”引擎 为 ImmoDB， 所 以 他 可 以 把 系统 变量 default_ storage engine 的 值 设置 为 mnoDB ， 猫 爷 使 用 客户 
端 B， 他 想 让 当前 客户 端 对 应 的 默认 存储 引擎 为 MyISAM， 所 以 他 可 以 把 系统 变量 default storage _ 
engine 的 值 设置 为 MYISAM。 这 样 可 以 使 狗 哥 和 猫 爷 的 的 客户 端 拥 有 不 同 的 默认 存储 引擎 ， 且 在 使 
用 时 互 不 影响 ， 十 分 方便 。 但 是 ， 这 样 一 来 各 个 客户 端 都 私有 一 份 系统 变量 ， 这 会 产生 两 个 问题 。 
e 有 一 些 系 统 变量 并 不 是 针对 单个 客户 端的 ， 比 如 允许 同时 连接 到 服务 器 的 客户 端 数量 
max connections、 查 询 缓存 的 大 小 query cache _size， 这 些 公 有 的 系统 变量 让 某 个 客户 
端 私 有 显然 不 合适 。 
e 一 个 新 客户 端 连接 到 服务 器 时 ， 与 它 对 应 的 系统 变量 的 值 该 怎么 设置 。 
为 了 解决 这 两 个 问题 ， 设 计 MySQL 的 大 叔 提出 了 系统 变量 的 作用 范围 的 概念 。 有 具体 来 说 ， 
作用 范围 分 为 下 面 两 种 。 
e。 GLOBAL (全 局 范围 ): 影响 服务 器 的 整体 操作 。 具 有 GLOBAL 作用 范围 的 系统 变量 
可 以 称 为 全 面 变 量 。 
e SESSION (会 话 范围 ): 影响 某 个 客户 端 连接 的 操作 。 具 有 SESSION 作用 范围 的 系统 
变量 可 以 称 为 会 话 变量 。 
服务 器 在 启动 时 ， 会 将 每 个 全 局 变量 初始 化 为 其 默认 值 (可 以 通过 命令 行 或 配置 文件 中 指 
定 的 选项 更 改 这 些 默认 值 )。 服 务 器 还 为 每 个 连接 的 客户 端 维护 一 组 会 话 变量 ， 客 户 端的 会 话 
变量 在 连接 时 使 用 相应 全 局 变量 的 当前 值 进行 初始 化 〈 也 有 一 些 会 话 变量 不 依据 相应 的 全 局 变 
量 值 进 行 初始 化 ， 不 过 这 里 不 展开 了 啼 明 了 )。 
这 话 有 点 儿 绕 ， 还 是 以 default_ storage engine 为 例 来 解释 。 在 服务 器 启动 时 会 初始 化 一 
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个 名 为 default storage engine、 作 用 范围 为 GLOBAL 的 系统 变量 。 之 后 每 当 有 一 个 客户 端 
连接 到 该 服务 器 时 ， 服 务 器 都 会 单独 为 该 客户 端 分 配 一 个 名 为 default storage_engine、 作 用 
范围 为 SESSION 的 系统 变量 ， 这 个 作用 范围 为 SESSION 的 系统 变量 值 按 照 当前 作用 范围 为 
GLOBAL 的 同名 系统 变量 值 进行 初始 化 。 

很 显然 ， 通 过 启动 选项 设置 的 系统 变量 的 作用 范围 都 是 GLOBAL 的 ， 因 为 在 服务 器 启动 
的 时 候 还 没有 客户 端 程序 连接 进来 呢 。 了 解 了 系统 变量 的 GLOBAL 和 SESSION 作用 范围 之 
后 ， 我 们 再 看 一 下 在 服务 器 程序 运行 期 间 通 过 客户 端 程序 设置 系统 变量 的 语法 : 


SET [GLOBAL|SESSION] 系统 变量 名 = 值 ; 
或 者 写成 这 样 也 行 : 
SET [ee (GLOBAL|SESSION) . ] 系统 变量 名 = 值 ; 


比如 ， 我 们 想 在 服务 器 的 运行 过 程 中 把 作用 范围 为 GLOBAL 的 系统 变量 default storage _ 
engine 的 值 修 改 为 MyISAM， 人 也 就 是 想 让 之 后 新 连接 到 服务 器 的 客户 端 都 用 MyISAM 作为 默 
认 的 存储 引擎 ， 则 可 以 选择 下 面 两 条 语句 中 的 任意 一 条 来 设置 。 

e@ 语句 1: SET GLOBAL default storage engine = MyISAM.; 

e 语句 2: SET @@GLOBAL .default storage engine = MyYISAM 

如 果 只 想 对 本 客户 端 生 效 ， 也 可 以 选择 下 面 3 条 语句 中 的 任意 一 条 来 设置 。 

e@ 语句 1: SET SESSION default storage engine = MyISAM.; 

e 语句 2: SET @@SESSION.default storage engine = MyISAM.; 

9 语句 3: SET default storage engine = MyISAM; 

从 上 面 的 语句 3 也 可 以 看 出 ， 如 果 在 设置 系统 变量 的 语句 中 省 略 了 作用 范围 ， 默 认 的 作用 范 
围 就 是 SESSION。 也 就 是 说 “SET 系统 变量 名 = 值 ” 和 “SET SESSION 系统 变量 名 = 值 ? 是 等 价 的 。 

(2) 查看 不 同 作 用 范围 的 系统 变量 

我 们 可 以 在 查看 系统 变量 的 语句 中 加 上 要 查看 哪个 作用 范围 的 系统 变量 的 修饰 符 ， 就 像 下 
面 这 样 : 


SHOW [GLOBAL|SESSION] VARIABLES [LIKE 匹配 的 模式 ]; 


e 如 果 使 用 GLOBAL 修饰 符 ， 则 显示 全 局 系统 变量 的 值 。 如 果 某 个 系统 变量 没有 GLOBAL 
作用 范围 ， 则 不 显示 它 。 

e 如 果 使 用 SESSION 修饰 符 ， 则 显示 针对 当前 连接 有 效 的 系统 变量 值 。 如 果 某 个 系统 变量 
没有 SESSION 作用 范围 ， 则 显示 GLOBAL 作用 范围 的 值 。 

e 如 果 没 写 修饰 符 ， 则 与 使 用 SESSION 修饰 符 效果 一 样 。 

下 面 演示 一 下 完整 地 设置 并 查看 系统 变量 的 过 程 ; 

mysql> SHOW SESSION VARIABLES LIKE 'default storage engine'; 

Tu [Www | 


| default storage engine | InnoDB | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 - 
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1 row in set (0.00 sec) 


mysql> SHOW GLOBAL VARIABLES LIKE '‘'default storage engine'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 
| default storage engine | InnoDB | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


mysql> SET SESSION default_ storage engine = MyISAM; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SHOW SESSION VARIABLES LIKE ‘default_storage_engine'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 和 
| Variable name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 + 
| default storage engine | MyISAM | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 


1 row in set (0.00 sec) 


mysql> SHOW GLOBAL VARIABLES LIKE 'default_storage_ engine'; 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 - 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 + 一 一 一 一 十 
| default storage engine | InnoDB | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


可 以 看 到 ， 最 初 default storage engine 的 系统 变量 无 论 是 在 GLOBAL 作用 范围 还 是 在 SESSION 
作用 范围 ， 值 都 是 InnoDB。 我 们 把 SESSION 作用 范围 的 系统 变量 值 设 置 为 MyISAM 之 后 ， 
可 以 看 到 GLOBAL 作用 范围 的 值 并 没有 改变 。 


如 果 某 个 客户 端 改 变 了 菜 个 系统 变量 在 GLOBAL 作用 范围 的 值 ， 并 不 会 影响 该 系 
统 变量 在 当前 已 经 连接 的 客户 端 作用 范围 为 SESSION 的 值 ， 站 信和 中 后 全 寺 入 的 守 
小 贴 士 。 端 作用 范围 为 SESSION 的 值 . 


(3) 注意 事项 
e 并 不 是 所 有 的 系统 变量 都 具有 GLOBAL 和 SESSION 的 作用 范围 。 
虽 有 一 些 系统 变量 只 具有 GLOBAL 作用 范围 ， 比 如 max_connections， 它 表 示 服 务 器 
程序 支持 同时 最 多 有 多 少 个 客户 端 程序 进行 连接 。 
@ 有 一 些 系统 变量 只 具有 SESSION 作用 范围 ， 比 如 insert_ id， 它 表 示 在 对 某 个 包含 
AUTO _INCREMENT 列 的 表 进 行 插入 时 ， 该 列 初始 的 值 。 
四 有 一 些 系统 变量 的 值 既 具有 GLOBAL 作用 范围 ， 也 具有 SESSION 作用 范围 ， 比 
如 前 面 用 到 的 default storage_engine， 而 且 其 实 大 部 分 的 系统 变量 都 是 这 样 的 。 
e@e 有 些 系统 变量 是 只 读 的 ， 并 不 能 设置 值 。 


比如 version， 它 表示 当前 MySQL 的 版 本 。 客 户 端 不 能 设置 它 的 值 ， 只 能 在 SHOW 
VARIABLES 语句 中 查看 。 
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3， 启 动 选 项 和 系统 变量 的 区 别 
启动 选项 是 在 程序 启动 时 由 用 户 传递 的 一 些 参 数 ， 而 系统 变量 是 影响 服务 器 程序 运行 行为 
的 变量 。 它 们 之 间 的 关系 如 下 。 
e 大 部 分 的 系统 变量 都 可 以 当 作 启动 选项 传 入 。 
e 有 些 系统 变量 是 在 程序 运行 过 程 中 自动 生成 的 ， 不 可 以 当 作 启动 选项 来 设置 ， 比 如 character 
set client。 
e@ 有 些 启动 选项 也 不 是 系统 变量 ， 比 如 defaults-file。 


为 了 让 我 们 更 好 地 了 解 服务 器 程序 的 运行 情况 ，MySQL 服务 器 程序 中 维护 了 好 多 关于 程 
序 运行 状态 的 变量 ， 它 们 被 称 为 状态 变量 。 比 如 ，Threads_connected 表示 当前 有 多 少 客户 端 与 
”服务 器 建立 了 连接 ; Innodb_rows_updated 表示 更 新 了 多 少 条 以 InnoDB 为 存储 引擎 的 表 中 的 记 
录 。 像 这 样 显示 服务 器 程序 状态 信息 的 状态 变量 还 有 好 几 百 个 ， 我 们 就 不 一 一 啼 胡 了 ， 等 遇 到 

时 再 详细 说 明 它们 的 作用 。 

由 于 状态 变量 是 用 来 显示 服务 器 程序 运行 状态 的 ， 所 以 它们 的 值 只 能 由 服务 器 程序 自己 来 


2.3 ”状态 变 | | : 
‘ 


设置 ， 不 能 人 为 设置 。 与 系统 变量 类 似 ， 状 态 变 量 也 有 GLOBAL 和 SESSION 两 个 作用 范围 ， 
查看 状态 变量 的 语句 可 以 这 么 写 : : 


SHOW [GLOBAL|SESSION] STATUS [LIKE 匹配 的 模式 ] ; 


类 似 地 ， 如 果 不 写 修饰 符 ， 则 与 使 用 SESSION 修饰 符 效果 一 样 。 
我 们 看 一 下 所 有 以 Thread 开头 的 状态 变量 的 值 都 是 什么 : 
mysql> SHOW STATUS LIKE "threadsgs ' ; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 十 
| Variable name | Value | 


十 
| Threads cached | 
| Threads connected | 
| Threads created | 
| Threads running | 

+ 


4 rows in set (0.00 sec) 


2.4 总 结 


启动 选项 可 以 调整 服务 器 启动 后 的 一 些 行为 。 它 们 可 以 在 命令 行 中 指定 ， 也 可 以 将 它们 写 
入 配置 文件 中 。 

在 命令 行 中 指定 启动 选项 时 ， 可 以 将 各 个 启动 选项 写 到 一 行 中 ， 每 一 个 启动 选项 名 称 前 面 
添加 --， 而 且 各 个 启动 选项 之 间 使 用 空白 字符 隔 开 。 有 一 些 启动 选项 不 需要 指定 选项 值 ， 有 一 


些 选项 需要 指定 选项 值 。 在 命令 行 中 指定 有 值 的 启动 选项 时 需要 注意 ， 选 项 名 、=、 选 项 值 之 ] 


wr” 


2.4 总 结 33 


间 不 可 以 有 空白 字符 。 一 些 常用 的 启动 选项 具有 短 形式 的 选项 名 ， 使 用 短 形式 选项 时 在 选项 名 
前 只 加 一 个 短 划 线 - 前 级。 


服务 器 程序 在 启动 时 将 会 在 一 些 给 定 的 路 径 下 搜索 配置 文件 ， 个 同 操作 系统 的 搜索 路 径 是 
个 同 的 。 

配置 文件 中 的 启动 选项 被 划分 为 若干 个 组 ， 每 个 组 有 一 个 组 名 ， 用 中 括号 虽 扩 起 来 。 在 
配置 文件 中 指定 的 启动 选项 不 允许 添加 -- 前 级 ， 并 且 每 行 只 指定 一 个 选项 ， 而 且 等 号 = 周转 
可 以 有 空白 字符 。 我 们 可 以 使 用 # 来 添加 注释 。 


系统 变量 是 服务 器 程序 中 维护 的 一 些 变量 ， 这 些 变量 影响 着 服务 器 的 行为 。 修 改 系统 变量 
的 方式 如 下 。 


o 在 服务 器 启动 时 通过 添加 相应 的 启动 选项 进行 修改 。 
9 在 运行 时 使 用 SET 语句 修改 ， 下 面 两 种 方式 都 可 以 ; 
时 SET [GLOBALISESSION] 系统 变量 名 = 值 : 


a SET[@@(GLOBALISESSION).] 系统 变量 名 = = 值 ; 
得 看 系统 变量 的 方式 如 下 所 示 ; 


SHOW [GLOBAL1SESSION] VARIABLES [LIKE 匹配 的 模式 ] ; 


状态 变量 是 用 来 显示 服务 器 程序 运行 状态 的 ， 我 们 可 以 使 用 下 面 的 命令 来 查看 ， 而 且 只 能 
埋 看 ; 


SHOW [GLOBAL1SESSION] STATUS [LIKE 匹配 的 模式 ] ; 
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3.1 字符 集 和 比较 规则 简介 


3.1.1 字符 集 简 介 
我 们 知道 ， 计 算 机 中 实际 存储 的 是 二 进 制 数据 ， 那 它 是 怎么 存储 字符 串 呢 ? 当然 是 建立 字  ， 


符 与 二 进 制 数据 的 映射 关系 了 。 要 建立 这 个 关系 ， 最 起 码 要 搞 清 楚 下 面 这 两 件 事 儿 。 
e 要 把 哪些 字符 映射 成 二 进 制 数据 ? 也 就 是 界定 字符 范围 。 
e@ 怎么 映射 ? 将 字符 映射 成 二 进 制 数据 的 过 程 叫 作 编码 ， 将 二 进 制 数据 映射 到 字符 的 过 “| 
程 叫 作 解码 。 

人 们 抽象 出 一 个 字符 集 的 概念 来 描述 某 个 字符 范围 的 编码 规则 。 比 如 ， 我 们 自 定义 一 个 名 


- 
称 为 xiaohaizi4919 的 字符 集 ， 它 包含 的 字符 范围 和 编码 规则 如 下 。 
@ 包含 字符 'a、'b'、'A'、'B'。 | 
e 编码 规则 为 一 个 字 节 编 码 一 个 字符 的 形式 。 字 符 和 字 节 的 映射 关系 如 下 。 
'"a' -> 00000001 (十 六 进 制 0x01) ,| 
'b， -> 00000010 (十 六 进 制 0x02) 
'A' -> 00000011 (十 六 进 制 0x03) 1 
'B' -> 00000100 (十 六 进 制 0x04) 
: 登 : xiaohaizi4919 字符 集 在 现实 生活 中 并 没有 ， 它 是 我 自 定义 的 字符 集 ! 是 我 自 定义 的 。 
小 贴 十 ”字符 集 ! 是 我 自 定义 的 字符 集 !” (重要 的 事情 讲 三 遍 ) 


有 了 xiaohaizi4919 字符 集 ， 我 们 就 可 以 用 二 进 制 形式 表示 一 些 字 符 串 了。 下面 是 一 些 字 
符 串 用 xiaohaizi4919 字符 集 编 码 后 的 二 进 制 表 示 : 

e@ 'bA' -> 0000001000000011 十 六 进 制 0x0203 ); 

e@ 'baB' -> 000000100000000100000100 (十 六 进 制 0x020104); 

e@ 'cd' 无 法 表示 ， 因 为 字符 集 xiaohaizi4919 不 包含 字符 'c' 和 'd'。 


3.1.2 ”比较 规则 简介 


在 确定 了 xiaohaizi4919 字符 集 表 示 的 字符 范围 以 及 编码 规则 后 ， 该 怎么 比较 两 个 字符 的 大 
小 呢 ? 最 容易 想到 的 就 是 直接 比较 这 两 个 字 位 对 应 的 二 进 制 编码 的 大 小 。 比 如 字符 'a' 的 编码 为 
0x01， 字 符 风 的 编码 为 0x02， 所 以 人 小 于 属 。 这 种 简单 的 比较 规则 也 可 以 称 为 二 进 制 比较 规则 。 


vv Re 和 il 
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二 进 制 比较 规则 尽管 很 简单 ， 但 有 时 候 并 不 符合 现实 需求 。 比 如 ， 在 很 多 场合 下 ， 英 文字 
符 都 是 不 区 分 大 小 写 的 ， 也 束 是 说 'a 和 'A' 是 相等 的 。 此 时 就 不 能 简单 粗暴 地 使 用 二 进 制 比较 
规则 了 ， 这 时 可 以 这 样 指定 比较 规则 : 

e 将 两 个 大 小 写 不 同 的 字符 全 都 转 为 大 写 或 者 小 写 ; 

e 再 比较 这 两 个 字符 对 应 的 二 进 制 数据 。 

这 是 一 种 稍微 复杂 一 点 儿 的 比较 规则 ， 但 是 实际 生活 中 的 字符 不 止 英文 字符 这 一 种 ， 还 有 
中 文字 符 、 德 文字 符 、 法 文字 符 等 。 对 于 某 一 种 字符 集 来 说 ， 可 以 制定 用 来 比较 字符 大 小 的 多 


种 规则 ， 也 就 是 说 同一 种 字符 集 可 以 有 多 种 比较 规则 。 稍 后 将 介绍 现实 生活 中 使 用 的 各 种 字符 
集 以 及 它们 的 一 些 比较 规则 。 


3.1.3 一 些 重要 的 字符 集 


我 们 所 在 的 世界 实在 太 大 了 ， 不 同 的 人 制定 出 了 不 同 的 字符 集 ， 它 们 表示 的 字符 范围 和 用 
到 的 编码 规则 可 能 都 不 一 样 。 我 们 看 一 下 一 些 常用 字符 集 的 情况 。 

e ASCII 字符 集 : 共 收 录 128 个 字符 ， 包 括 空 格 、 标 点 符号 、 数 字 、 大 小 写字 母 和 一 些 
不 可 见 字 符 。 由 于 ASCII 字符 集 总 共 才 128 个 字符 ， 所 以 可 以 使 用 一 个 字 节 来 进行 编 
码 。 我 们 来 看 几 个 字符 的 编码 方式 : 

'L' -> 01001100 (十 六 进 制 0x4C， 十进制 76) 
'M' -> 01001101 (十 六 进 制 0x4D， 十 进 制 77) 

e@ ISO 8859-1 字符 集 : 共 收 录 256 个 字符 ， 它 在 ASCII 字符 集 的 基础 上 又 扩充 了 128 个 
西欧 常用 字符 (包括 德 法 两 国 的 字母 )。ISO 8859-1 字符 集 也 可 以 使 用 一 个 字 节 来 进行 
编码 〈 这 个 字符 集 也 有 一 个 别名 Latin1 )。 

e GB2312 字符 集 : 收录 了 汉字 以 及 拉丁 字母 、 希 腊 字 母 、 日 文平 假名 及 片 假 名 字母 、 俄 
语 西里 尔 字 母 ， 收 录 汉 字 6763 个 ， 收 录 其 他 文字 符号 682 个 。 这 种 字符 集 同时 又 兼容 
ASCII 字符 集 ， 所 以 在 编码 方式 上 显得 有 些 奇怪 : 如 果 该 字符 在 ASCII 字符 集中 ， 则 
采用 一 字 节 编 码 ; 否则 采用 两 字 节 编码 。 

这 种 使 用 不 同 字 节 数 来 表示 一 个 字符 的 编码 方式 称 为 变 长 编码 方式 。 比 如 字符 串 “ 爱 u”， 

其 中 的 ' 爱 ' 需要 用 2 字 节 进行 编码 ， 编 码 后 的 十 六 进 制 表示 为 0xBOAE ; "u' 需要 用 1 字 节 进 
行 编码 ， 编 码 后 的 十 六 进 制 表示 为 0x75， 所 以 拼合 起 来 就 是 0xXBOAE75。 


计算 机 在 读 取 一 个 字 节 序列 时 ， 怎 么 区 分 某 个 守节 代表 的 是 一 个 单独 的 字符 还 是 菜 个 
;全 、 字符 的 一 部 分 呢 ? 别 忘 了 ASCI 守 符 集 只 收录 128 个 字符 ， 使 用 0 一 127 就 可 以 表示 全 部 
,NA 二“ 字符。 所以， 如 有 果 某 个 字 节 是 在 0 一 127 之 内 (该 字 节 的 最 高 位 为 0)， na 

代表 一 个 单独 的 字符 ， 和 否则 (该 字 节 的 最 高 位 为 EE 就 是 两 个 字 节 代表 一 个 单独 的 字符 . z 


e GBK 字符 集 : GBK 字符 集 只 是 在 收录 的 字符 范围 上 对 GB2312 字符 集 进 行 了 扩充 ， 编 
码 方式 兼容 GB2312 字符 集 。 
e@ UTF-8 字符 集 : 几乎 收录 了 当今 世界 各 个 国家 /地 区 使 用 的 字符 ， 而 且 还 在 不 断 扩充 。 


这 种 字符 集 兼容 ASCII 字符 集 ， 采 用 变 长 编码 方式 ， 编 码 一 个 字符 时 需要 使 用 1 一 4 
字 节 ， 比 如 下 面 这 样 : 
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'! -> 01001100 (1 字 节 ， 十 六 进 制 0x4C) 
' 啊 ' -> 111001011001010110001010 (3 字 节 ， 十 六 进 制 0xE5958A) 
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MySQL ep ppp 所 以 后 面 哮 功 的 时 候 会 把 UTF.8 8、UTF-16、 
UTF-32 都 当 作 一 种 字符 集 对 待 。 

对 于 同一 个 字符 ， 不 同 字 符 集 可 能 采用 不 同 的 编码 方式 。 比 如 对 于 汉字 ' 我 ' 来 说 ，ASCII 
字符 集中 根本 没有 收录 这 个 字符 ，UTF-8 和 GB2312 字符 集 对 汉字 ' 我 ' 的 编码 方式 如 下 。 

ee UTF-8 编码 : 111001101000100010010001 (3 字 节 ， 十 六 进 制 形 式 为 0xE68891)。 

e GB2312 编码 : 1100111011010010 (2 字 节 ， 十 六 进 制 形式 为 0xCED2)。 
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3.2.1 MySQL 中 的 utf8 和 utf8mb4 


前 文 讲 到 ，UTF-8 字符 集 在 表示 一 个 字符 时 需要 使 用 1 一 4 字 节 ， 但 是 我 们 常用 的 一 些 字 
符 使 用 1 一 3 字 节 就 可 以 表示 了 。 而 在 MySQL 中 ， 字 符 集 表示 一 个 字符 所 用 的 最 大 字 节 长 度 
在 某 些 方面 会 影响 系统 的 存储 和 性 能 。 设 计 MySQL 的 大 叔 “ 偷 偷 ” 地 定义 了 下 面 两 个 概念 。 

e utf8mb3:“ 阁 割 ” 过 的 UTF-8 字符 集 ， 只 使 用 1 一 3 字 节 表示 字符 。 

e nutfgmb4: 正宗 的 UTF-8 字符 集 ， 使 用 1 一 4 字 节 表示 字符 。 

有 一 点 需要 注意 : 在 MySQL 中 ，utf8 是 utf8mb3 的 别名 ， 所 以 后 文 在 MySQL 中 提 到 utf8 时 ， 
就 意味 着 使 用 1 ~ 3 字 节 来 表示 一 个 字符 。 如 果 大 家 有 使 用 4 字 节 编码 一 个 字符 的 情况 ， 比 如 
存储 一 些 emoji 表情 ， 请 使 用 utfgmb4。 
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3.2.2 ”字符 集 的 查看 
MySQL 支持 非常 多 的 字符 集 ， 可 以 用 下 面 这 个 语句 来 查看 当前 MySQL 中 支持 的 字符 集 : 


SHOW (CHARACTER SET|CHARSET) [LIKE 匹配 的 模式 ] ; 


其 中 ，CHARACTER SET 和 CHARSET 是 同义词 ， 用 任意 一 个 都 可 以 。 在 后 文中 用 到 
CHARACTER SET 的 地 方 都 可 以 用 CHARSET 替换 ， 我 们 就 不 强调 了 。 我 们 执行 一 下 上 述 语 
句 《〈 由 于 支持 的 字符 集 太 多 ， 这 里 省 略 了 一 些 ): 


mysql> SHOW CHARSET; 


| Charset | Description | Default collation |- Maxlen | 
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+ 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 -~ 一 -一 -一 -~ 一- 一 一 一- 一 一 -一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 十 
| big5 | Big5 Traditional Chinese | big5_chinese_ci | ” 
| 
| latin]l | cpl252 West European | latinl swedish ci | | 
| latin2 | ISO 8859-2 Central European | latin2 general ci | 1 | 
| ascii | YS RSCII | ascii general ci | 是 
| gb2312 | GB2312 Simplified Chinese | gb2312 chinese ci | - 坟 
| gbk | GBK Simplified Chinese | gbk chinese ci | 2 | 
| latin5s | ISO 8859-9 Turkish | latin5 turkish ci | 有 
| utf8 | UTF-8 Unicode | utf8 general ci | 3 | 
| ucs2 | UCS-2 Unicode | uCcs2_ general ci | "Nl 
| latin7 | ISO 8859-13 Baltic | latin7 general ci | 
| utf8mb4 | UTF-8 Unicode | | utf8mb4 general ci | 4 | 
| utf16 | UTF-16 Unicode | utf16 general ci | 4 | 
| utfl6le | UTF-16LE Unicode | utfli6le general ci | a | 
| Vt£32 | UTF-32 Unicode | utf32 general ci | 者 
| binary | Binary Pseudo charset | binary | 0 
| gb18030 | China National Standard GB18030 | gb18030 chinese ci | a | 
+ 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 


41 rows in set (0.01 sec) 





集中 一 种 默认 的 比较 规则 。 大 家 注意 返回 结果 中 的 最 后 一 列 Maxlen， 它 代表 这 种 字符 集 最 多 


需要 几 个 字 节 来 表示 一 个 字符 。 为 了 让 大 家 的 印象 更 深刻 ， 我 把 几 个 常用 字符 集 的 Maxlen 列 
摘抄 下 来 〔 见 表 3-1) ， 大 家 务必 记 住 。 
| 


表 3-1 字符 集 名 称 及 其 Maxlen 列 


字符 集 名 称 | Maxlen 
asScil 1 
latin1l | 1 
gb2312 2 
gbk 2 
utf8 3 
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3.2.3 ”比较 规则 的 查看 
可 以 使 用 如 下 命令 来 查看 MySQL 中 支持 的 比较 规则 : 


SHOW COLLATION [LIKE 匹配 的 模式 ] ; 


前 文 说 过 ， 一 种 字符 集 可 能 对 应 着 若干 种 比较 规则 。MySQL 支持 的 字符 集 已 经 非常 多 ， 
所 以 支持 的 比较 规则 就 更 多 了 。 我 们 先 看 一 下 utf8 字符 集 下 的 比较 规则 : 


mysql> SHOW COLLATION LIKE 'utf8\ $%'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 -一 一 一 一 +- 一 -一 一 + 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 
| Collation | Charset | Id | Default | Compiled | Sortlen | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
| utf8 general ci | utf£8 | 33 | Yes | Yes | :| 
| utf8 bin | utf8 | 83 | | Yes | : 
| utf8 uvnicode ci | utf8 | 192 | | Yes | 8 | 
| utf8 icelandic ci | utfE8 | 193 | | Yes | 8 | 
| ut£f8 latvian ci | utf8 | 194 | | Yes | 8 | 
| utf8 romanian ci | utf8 | 195 | | Yes | 8 | 
| utf8 slovenian_ ci | atf8 | 196 | | Yes | 8 | 
| utf8 polish ci | utf8 | 197 | | Yes | 8 | 
| utf8 estonian ci | utf8 | 198 | | Yes | 8 | 
| utf8 spanish ci | utf8 | 199 | | Yes | 8 | 
| utf8 swedish ci | utf8 | 200 | | Yes | 8 | 
| utf8 turkish ci | utf8 | 201 | | Yes | 8 | 
| utf8 czech ci | ut£8 | 202 | | Yes | 8 | 
| utf8 danish ci | utf8 | 203 | | Yes | 8 | 
| utf8 lithuanian ci | utf8 | 204 | | Yes | 8 | 
| utf8 slovak ci | utf£8 | 205 | | Yes | 8 | 
| utf8 spanish2 ci | utf8 | 206 | | Yes | 8 | 
| utf8 roman ci | atf8 | 207 | | Yes | 8 | 
| utf8 persian ci | utf8 | 208 | | Yes | 8 | 
| utf8 esperanto ci | utf8 | 209 | | Yes | 8 | 
| utf8 hungarian ci | utf8 | 210 | | Yes | 8 | 
| utf8 sinhala ci | utf8 全 | Yes | 8 | 
| utf8 german2 ci | utf£8 ra | Yes | 8 | 
| utf8 croatian ci | utf£8 1 23 | | Yes | 8 | 
| utf8 unicode 520 ci | utf8 | 214 | | Yes | 8 | 
| utf8 vietnamese ci | utf8 C5, | Yes | 8 | 
| utf8 general mysql500 ci | utf8 | A223: 1 | Yes | 1 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 -一 + 一 一 一 -~ 一 一 一 + 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 
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这 些 比较 规则 的 命名 还 都 手 有 规律 的 ， 具 体 如 下 。 

e 比较 规则 的 名 称 以 与 其 关联 的 字符 集 的 名 称 开 头 。 比 如 在 上 面 的 查询 结果 中 ， 比 较 规 
则 的 名 称 都 是 以 utf8 开头 的 。 

e 后 面 紧 跟着 该 比较 规则 所 应 用 的 语言 。 比 如 ，nutfg polish ci 表示 波兰 语 的 比较 规则 ; 
utf8_spanish_ci 表示 班 牙 语 的 比较 规则 ; utf8_general_ci 是 一 种 通用 的 比较 规则 。 

e@ 名 称 后 缀 意味 着 该 比较 规则 是 否 区 分 语言 中 的 重音 、 大 小 写 等 ， 具 体 可 用 的 值 如 表 3-2 
所 示 。 
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表 3-2 ”比较 规则 名 称 后 缀 英文 释义 及 描述 


bin 以 二 进 制 方式 比较 
比如 比较 规则 utf8_general_ci 是 以 ci 结尾 的 ， 说 明 不 区 分 大 小 写 。 
每 种 字符 集 对 应 若干 种 比较 规则 ， 且 每 种 字符 集 都 有 一 种 默认 的 比较 规则 。 在 执行 SHOW 


COLLATION 语句 后 返回 的 结果 中 ，Default 列 的 值 为 YES 的 比较 规则 ， 就 是 该 字符 集 的 默认 
比较 规则 ， 比 如 utf8 字符 集 默认 的 比较 规则 就 是 utf8_general ci。 


3.3 字符 集 和 比较 规则 的 应 用 


3.3.1 各 级 别 的 字符 集 和 比较 规则 

MySQL 有 4 个 级 别 的 字符 集 和 比较 规则 ， 分 别 是 服务 器 级 别 、 数 据 库 级 别 、 表 级 别 、 列 
级 别 。 

下 面 仔细 看 一 下 怎么 设置 和 查看 这 几 个 级 别 的 字符 集 和 比较 规则 。 

1. 服务 器 级 别 | 

MySQL 提供 了 两 个 系统 变量 来 表示 服务 器 级 别 的 字符 集 和 比较 规则 ， 如 表 3-3 所 示 。 


表 3-3 ”服务 器 级 别 的 字符 集 和 比较 规则 对 应 的 系统 变量 及 其 描述 


系统 变量 描述 
character set Server 服务 器 级 别 的 字符 集 
collation server 服务 器 级 别 的 比较 规则 


我 们 看 一 下 这 两 个 系统 变量 的 值 : 


mysql> SHOW VARIABLES LIKE ‘character_set_server'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 和 
| Variable name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 
| character set server | utf8 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE ‘collation server'; 














| Variable name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| collation server | utf8 general ci | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
1 row in set (0.00 sec) 


可 以 看 到 ， 在 我 的 计算 机 中 ，MySQL 服务 器 级 别 默认 的 字符 集 是 utfg， 默 认 的 比较 规则 
是 utf8 general ci。 

在 启动 服务 器 程序 时 ， 可 以 通过 启动 选项 或 者 在 服务 器 程序 运行 过 程 中 使 用 SET 语句 来 
修改 这 两 个 变量 的 值 。 比 如 ， 我 们 可 以 在 配置 文件 中 这 样 写 : 


[server] 
character set server=gb2312 


collation server=gb2312 chinese ci | 
当 服 务 器 在 启动 时 读 取 这 个 配置 文件 后 ， 这 两 个 系统 变量 的 值 便 修改 了 。 


2. 数据 库 级 别 
我 们 在 创建 和 修改 数据 库 时 可 以 指定 该 数据 库 的 字符 集 和 比较 规则 ， 具 体 语 法 如 下 : 
CREATE DATABASE 数据 库 名 


[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[ [DEFAULT] COLLATE 比较 规则 名 称 ] ; 


ALTER DATABASE 数据 库 名 
[[DEFRULT] CHARACTER SET 字符 集 名 称 ] 
[[DEFAULT] COLLATE 比较 规则 名 称 ] ; 
其 中 的 DEFAULT 可 以 省 略 ， 并 不 影响 语句 的 语义 。 比 如 ， 我 们 新 建 一 个 名 为 charset demo 
db 的 数据 库 ， 在 创建 时 指定 它 使 用 的 字符 集 为 gp2312， 比 较 规则 为 gb2312_chinese ci : 


mysql> CREATE DATABASE charset demo_db 
-> CHARACTER SET gb2312 
-> COLLATE gb2312 chinese ci; 
Query OK, 1 row affected (0.01 sec) 


如 果 想 查看 当前 数据 库 使 用 的 字符 集 和 比较 规则 ， 可 以 查看 表 3-4 中 的 两 个 系统 变量 的 值 
(前 提 是 使 用 USE 语句 选择 当前 的 默认 数据 库 。 如 果 没 有 默认 数据 库 ， 则 变量 与 服务 器 级 别 下 
相应 的 系统 变量 具有 相同 的 值 )。 


表 3-4 数据库 级 别 的 字符 集 和 比较 规则 对 应 的 系统 变量 及 描述 


系统 变量 描述 
character set database 当前 数据 库 的 字符 集 
collation database 当前 数据 库 的 比较 规则 


我 们 来 看 一 下 刚刚 创建 的 charset demo db 数据 库 的 字符 集 和 比较 规则 : 


mysql> USE charset_demo_db; 
Database changed 


mysql> SHOW VARIABLES LIKE '‘'character set database'; 
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十 一 ~ 一 一 一 一 一 一 -一 -一 -一 -一 -~ 一 一 ~--- + 一 一 一 一 一 一 一 一 + 
> | Variable name | Value | 
2 +------------------------ ~ 一 — + 
E | character set database | gb2312 | 
" 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 了 
1 row in set (0.00 sec) 
mysql> SHOW VARIABLES LIKE 'Ccollation database'; 
+~~——— 一 ~- 一 一 一 一 一 一 一 一 一 一 一 +~———- 一 一 了 一 一 一 一 一 一 一 一 一 一 一 一 二 
| Variable name | Value | 
A Nae in + | 
| collation database | 9b2312_chinese_ci | 
; +-~---~~-~-~~-—--~----- 一 +--— 一 -一 一 -一 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


可 以 看 到 ， 这 个 charset_ demo db 数据 库 的 字符 集 和 比较 规则 就 是 我 们 在 创建 数据 库 语句 

时 指定 的 。 需 要 注意 的 一 点 是 ， character_set_database 和 collation_database 这 两 个 系统 变量 只 

, 是 用 来 告诉 用 户 当 前 数据 库 的 字符 集 和 比较 规则 是 什么 。 我 们 不 能 通过 修改 这 两 个 变量 的 值 来 
改变 当前 数据 库 的 字符 集 和 比较 规则 。 


、 在 数据 库 的 创建 语句 中 也 可 以 不 指定 字符 集 和 比较 规则 ， 比 如 这 样 : 


CREATE DATABASE 数据 库 名 ; 


这 将 使 用 服务 器 级 别 的 字符 集 和 比较 规则 作为 数据 库 的 字符 集 和 比较 规则 。 
3. 表 级 别 


我 们 也 可 以 在 创建 和 修改 表 的 时 候 指定 表 的 字符 集 和 比较 规则 ， 语 法 如 下 . 


CREATE TABLE 表 名 ( 列 的 信息 ) 
[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[COLLATE 比较 规则 名 称 ] ; 


ALTER TABLE 表 名 
【 [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
| [COLLATE 比较 规则 名 称 ] ; 
比如 ， 我 们 在 刚刚 创建 的 charset demo db 数据 库 中 创建 一 个 名 为 t 的 表 ， 并 指定 这 个 表 
的 字符 集 和 比较 规则 : 


mysql> USE charset demo_ db 
Database changed 


-> col VARCHAR (10) 
-> ) CHARACTER SET utf8 COLLATE utf8 general ci; 


mysql> CREATE TABLE 七 ( 
\ Query OK, 0 rows affected (0.03 sec) 


如 果 创建 表 的 语句 中 没有 指明 字符 集 和 比较 规则 ， 则 使 用 该 表 所 在 数据 库 的 字符 集 和 比较 
规则 作为 该 表 的 字符 集 和 比较 规则 。 假 设 表 t 的 建 表 语句 是 这 么 写 的 ， 
| CREATE TABLE t( 


Col VARCHAR (10) 
) 7 
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因为 表 t 的 建 表 语 句 中 并 没有 明确 指定 字符 集 和 比较 规则 ， 所 以 表 t 的 字符 集 和 比较 规则 将 继承 
所 在 数据 库 charset demo db 的 字符 集 和 比较 规则 ， 也 就 是 gb2312 和 gb2312_chinese_ci。 


4. 列 级 别 
需要 注意 的 是 ， 对 于 存储 字符 串 的 列 ， 同 一 个 表 中 不 同 的 列 也 可 以 有 不 同 的 字符 集 和 比较 
规则 。 我 们 在 创建 和 修改 列 的 时 候 可 以 指定 该 列 的 字符 集 和 比较 规则 ， 语 法 如 下 : 
CREATE TABLE 表 名 ( 
列 名 字符 串 类 型 [CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ] ， 


) ; 


ALTER TABLE 表 名 MODIFY 列 名 字符 串 类 型 【CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ] ; 
比如 我 们 修改 一 下 表 t 中 列 col 的 字符 集 和 比较 规则 ， 可 以 这 么 写 : 


mysql> ALTER TABLE t MODIFY col VARCHAR(10) CHARACTER SET gbk COLLATE gbk chinese ci; 
Query OK, 0 rows affected (0.04 sec) 
Records: 0 Duplicates: 0 Warnings: 0 


: 对 于 某 个 列 来 说 ， 如 果 在 创建 和 修改 表 的 语句 中 没有 指明 字符 集 和 比较 规则 ， 则 使 用 该 列 
所 在 表 的 字符 集 和 比较 规则 作为 其 字符 集 和 比较 规则 。 比 如 ， 表 t 的 字符 集 是 utfg， 比 较 规 则 
是 utfg_general ci， 修 改 列 col 的 语句 是 这 么 写 的 : 


ALTER TABLE t MODIFY col VARCHAR(10); 


这 样 一 来 ， 列 col 的 字符 集 和 比较 规则 将 使 用 表 t 的 字符 集 和 比较 规则 ， 也 就 是 utf8 和 
utf8 _ general cl。 


、, 。 徐徐 关 列 的 字符 人 时 需要 二 塌 ， 如 呆 列 中 存储 的 效 据 示 能 用 得 芝 后 的 宇 符 信 进行 
入 示 ， 则 会 发 生 错误 .比如 ， 列 最 初 使 用 的 字符 集 是 utf8， 列 中 存储 了 一 些 汉 字 ， 现 在 把 
小 贴 士 : 列 的 字符 集 转换 为 ascii 的 话 就 会 出 错 ， 因为 ascii 字符 集 并 不 能 表示 汉字 字符 . 


5. 仅 修改 字符 集 或 仅 修 改 比较 规则 

由 于 字符 集 和 比较 规则 之 间 相 互 关 联 ， 因 此 如 果 只 修改 字符 集 ， 比 较 规则 也 会 跟着 变化 ; 
如 果 只 修改 比较 规则 ， 字 符 集 也 会 跟着 变化 。 具 体 规则 如 下 : 

e 只 修改 字符 集 ， 则 比较 规则 将 变 为 修改 后 的 字符 集 默 认 的 比较 规则 ; 

e 只 修改 比较 规则 ， 则 字符 集 将 变 为 修改 后 的 比较 规则 对 应 的 字符 集 。 

无 论 哪个 级 别 的 字符 集 和 比较 规则 ， 这 两 条 规则 都 适用 。 我 们 以 服务 器 级 别 的 字符 集 和 比 
较 规则 为 例 来 看 一 下 详细 过 程 。 

e 只 修改 字符 集 ， 则 比较 规则 将 变 为 修改 后 的 字符 集 默 认 的 比较 规则 。 


mysql> SET character_Set_Sserver = gb2312; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SHOW VARIABLES LIKE ‘character set server'; 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 1 
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| Variable _ name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 
| character set_ server | gb2312 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE '‘'collation server'; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| collation server | gb2312_chinese ci | 
4 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


chinese ci。 
e 只 修改 比较 规则 ， 则 字符 集 将 变 为 修改 后 的 比较 规则 对 应 的 字符 集 。 


mysql> SET collation server = Utf8_general ci; 
Query OK, 0 rows affected (0.00 sec) 


] 
| 
| 

我 们 只 将 character set server 的 值 修改 为 gb2312，collation server 的 值 自动 变 为 了 gb2312_ | 
| 
| 


mysql> SHOW VARIABLES LIKE ‘character_set_server'; | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 

| Variable_ name | Value | ] 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 + | 
| character set server | utf8 | | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + | 
1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE '‘'collation_server'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| collation server | utf8 general ci | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) ] 


我 们 只 将 collation server 的 值 修改 为 为 utf8_general ci，character_set_server 的 值 自动 
变 为 了 utf8。 


6. 各 级 别 字符 集 和 比较 规则 小 结 
前 文 介 绍 的 这 4 个 级 别 的 字符 集 和 比较 规则 的 联系 如 下 : 


e@ ”如 果 创 建 或 修改 列 时 没有 显 式 指定 字符 集 和 比较 规则 ， 则 该 列 默认 使 用 表 的 字符 集 和 
比较 规则 ; 


e 如 果 创建 表 时 没有 显 式 指 定 字符 集 和 比较 规则 ， 则 该 表 默 认 使 用 数据 库 的 字符 集 和 比 
较 规则 ; 


e@ ”如 果 创 建 数据 库 时 没有 显 式 指定 字符 集 和 比较 规则 ， 则 该 数据 库 默 认 使 用 服务 器 的 字 
符 集 和 比较 规则 。 | 


知道 了 这 些 规则 后 ， 对 于 给 定 的 表 ， 我 们 应 该 知道 它 的 各 个 列 的 字符 集 和 比较 规则 是 什 
么 ， 从 而 根据 这 个 列 的 类 型 来 确定 每 个 列 存储 的 实际 数据 所 占用 的 存储 空间 大 小 。 比 如 我 们 向 


sd 
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表 t 中 插入 一 条 记录 : 
mysql> INSERT INTO t (col) VALUES{(' 我 我 '); 
Query OK, 1 row affected (0.00 sec) 


mysql> SELECT * FROM 七 ; 


1 row in set (0.00 sec) 


如 果 列 col 使 用 的 字符 集 是 gbk， 一 个 字符 ' 我 ' 在 gbk 中 的 编码 为 0xXCED2， 占 用 2 字 节 ， 则 
两 个 字符 就 占用 4 字 节 。 如 果 把 该 列 的 字符 集 修改 为 utfg， 这 两 个 字符 实际 占用 的 存储 空间 就 
是 6 字 节 了 。 


3.3.2 客户 端 和 服务 器 通信 过 程 中 使 用 的 字符 集 


1. 编码 和 解码 使 用 的 字符 集 不 一 致 
说 到 底 ， 字 符 串 在 计算 机 上 的 体现 就 是 一 个 字 节 序列 。 如 果 使 用 不 同 的 字符 集 去 解码 这 个 
字 节 序列 ， 最 后 得 到 的 结果 可 能 让 你 挠 头 。 
我 们 知道 ， 字 符 串 ' 我 ' 在 UTF-8 字符 集 编 码 下 的 字 节 序列 是 0xE68891。 如 果 程 序 A 把 
这 个 字 节 序列 发 送 到 程序 B， 程 序 B 使 用 不 同 的 字符 集 解 码 这 个 字 节 序列 (假设 使 用 的 是 
GBK 字符 集 ) ， 解 码 过程 如 下 所 示 。 
1. 首先 看 第 一 个 字 节 0xE6， 它 的 值 大 于 0x7F (十 进 制 127)， 说 明 待 读 取 字符 是 两 字 节 
编码 。 继 续 读 一 字 节 后 得 到 0xE688， 然 后 从 GBK 编码 表 中 查找 字 节 为 0xE688 对 应 
的 字符 ， 发 现 是 字符 ' 忽 '。 
2. 继续 读 一 个 字 节 0x91， 它 的 值 也 大 于 0x7F， 试 图 再 读 一 个 字 节 时 发 现 后 边 没 有 了 ， 所 
以 这 是 半 个 字符 。 
3. 最 终 ，0xE68891 被 GBK 字符 集 解 释 成 一 个 字符 ' 忽 ' 和 半 个 字符 。 
假设 使 用 ISO-8859-1 (也 就 是 Latinl 字符 集 ) 去 解释 这 串 字 节 ， 解 码 过 程 如 下 。 
1. 先 读 第 一 个 字 节 0xE6， 它 对 应 的 Latin1 字符 为 &。 
2. 再 读 第 二 个 字 节 0x88， 它 对 应 的 Latinl 字符 为 “。 
3. 再 读 第 三 个 字 节 0x91， 它 对 应 的 Latin1 字符 为 '。 
4. 所 以 整 串 字 节 0xE68891 被 Latinl 字符 集 解释 后 的 字符 串 就 是 “me””。 
有 上 可 见 ， 对 于 同一 个 字符 串 ， 如 果 编 码 和 解码 使 用 的 字符 集 不 一 样 ， 会 产生 意 想 不 到 的 
结果 。 在 我 们 看 来 就 像 是 产生 了 乱码 一 样 。 


2. 字符 集 转换 的 概念 


如 果 接 收 0xE68891 这 个 字 节 序列 的 程序 按照 UTF-8 字符 集 进行 解码 ， 然 后 又 把 它 按照 
GBK 字符 集 进行 编码 ， 则 编码 后 的 字 节 序列 就 是 0xCED2。 我 们 把 这 个 过 程 称 为 字符 集 的 转 
换 ， 也 就 是 字符 串 ' 我 ' 从 UTF-8 字符 集 转 换 为 GBK 字符 集 。 


CO ee 


二 人 了 人 
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3. MySQL 中 的 字符 集 转 换 过 程 


如 果 我 们 仅仅 把 MySQL 当 作 一 个 软件 ， 那 么 从 用 户 的 角度 来 看 ， 客 户 端 发 送 的 请 求 以 及 
服务 器 返回 的 响应 都 是 一 个 字符 串 。 但 是 从 机 器 的 角度 来 看 ， 客 户 端 发 送 的 请 求 和 服务 器 返回 
的 啊 应 本 质 上 就 是 一 个 字 节 序列 。 在 这 个 “客户 端 发 送 请 求 ， 服 务 器 返回 响应 ”的 过 程 中 ， 其 
实 经 历 了 多 次 的 字符 集 转 换 。 下 面 详 细 分 析 一 下 。 

客户 端 发 送 请求 

MySQL 客户 端 发 送 给 服务 器 的 请 求 以 及 服务 器 返回 给 客户 端的 响应 ， 其 实 都 遵从 了 一 定 的 
格式 (这 个 “格式 ”指明 了 请 求 和 响应 的 每 一 个 字 节 分 别 代 表 什 么 意思 )。 我 们 把 MySQL 客户 
端 与 服务 器 进行 通信 的 过 程 中 事先 规定 好 的 数据 格式 称 为 MySQL 通信 协议 。 由 于 MySQL 本 
身 是 开源 软件 ， 因 此 可 以 直接 分 析 代 码 来 了 解 这 个 协议 。 即 使 不 想 查看 源码 ， 也 可 以 简单 地 使 
用 诸如 Wireshark 等 抓 包 软件 来 分 析 这 个 协议 。 在 了 解 了 MySQL 通信 协议 之 后 ， 我 们 甚至 可 
以 动手 制作 自己 的 客户 端 软件 。 

由 于 市 面 上 的 MySQL 客户 端 软件 种 类 繁多 ， 我 们 只 以 MySQL 安装 目录 的 bin 目录 
下 自 带 的 mysql 客户 端 程序 为 例 进行 分 析 。 一 般 情况 下 ， 客 户 端 编码 请 求 字 符 串 时 使 用 的 
字符 集 与 操作 系统 当前 使 用 的 字符 集 一 致 。 可 以 使 用 下 述 方法 获取 操作 系统 当前 使 用 的 字 
符 集 。 

e 当 使 用 类 UNIX 操作 系统 时 


LC ALL、LC_CTYPE、LANG 这 3 个 环境 变量 的 值 决定 了 操作 系统 当前 使 用 的 是 哪 种 字 
符 集 。 其 中 ，LC _ALL 的 优先 级 比 LC_ CTYPE 高 ，LC_CTYPE 的 优先 级 比 LANG 高 。 也 就 
是 说 ， 如 果 设 置 了 LC_ALL， 则 无 论 是 否 设置 了 LC_CTYPE 或 者 LANG， 最 终 都 以 LC_ALL 
为 准 ; 如 果 没 有 设置 LC ALL， 就 以 LC_CTYPE 为 准 ， 如 果 既 没有 设置 LC_ALL 也 没有 设置 
LC_CTYPE， 就 以 LANG 为 准 。 

下 面 看 一 下 这 3 个 变量 的 值 在 我 的 macOS 操作 系统 上 分 别 是 什么 : 


shell> echo S$LC ALL 
zh_ CN.UTF-8 

shell> echo S$LC_CTYPE 
shell> echo S$LANG 


很 显然 ， 只 设置 了 LC ALL 的 值 : zh CN.UTF-8 (其 中 的 zh_CN 表示 语言 以 及 国家 地 区 
的 代码 ， 大 家 可 以 忽略 )。 这 就 意味 着 我 的 macOS 操作 系统 当前 使 用 的 字符 集 是 UTF-8。 
如 果 这 3 个 环境 变量 都 没有 设置 ， 那 么 操作 系统 当前 使 用 的 字符 集 就 是 其 默认 的 字符 集 。 
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@ 当 使 用 Windows 操作 系统 时 
在 Windows 中 ， 字 符 集 称 为 代码 页 (code page) ， 一 个 代码 页 与 一 个 唯一 的 数字 相关 联 。 
比如 ，936 代表 GBK 字符 集 ，65001 代表 UTF-8 字符 集 。 我 们 可 以 在 Windows 命令 行 窗 口 的 


人 
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标题 栏 上 单 击 鼠 标 右键 ， 在 弹出 的 菜单 中 单 击 “ 属 性 ” 子 菜单 ， 从 弹出 的 对 话 框 中 选择 “选项 ” 
选项 卡 ， 如 图 3-1 所 示 。 





9 编辑 选项 I 
| 继 冲 区 大 小 @); 名 网 ) 辐 快 速 坊 查 模式 bo) 
| 二 站 区 数 旭 00 只 开 ;| : 回 斤 入 模式 0) 
- 壤 委 弃 1RE 到 本 0) 

当 遂 全 到 页 


26 ”OSI - 入 条 中 文 S90 










图 3-1 在 Windows 中 用 来 查看 代码 页 的 选项 卡 


可 以 看 到 ， 当 前 代码 页 的 值 是 936， 也 就 表示 当前 的 命令 行 窗口 使 用 的 是 GBK 字符 集 。 
更 简单 的 方法 则 是 直接 运行 chcp 命令 ， 碍 看 当前 代码 页 是 什么 ， 如 图 3-2 所 示 。 





全 : 在 Windows 中 获取 当前 代码 页 时 ， 调 用 的 系统 函数 为 GetConsoleCP. 对 源码 感 兴 
小 册 十 趣 的 读者 可 以 进一步 研究 . 


在 Windows 操作 系统 中 ， 如 果 在 启动 MySQL 客户 端 程 序 时 携带 了 default-character-set 启 
动 选项 ， 那么 MySQL 客 广 出 将 以 该 月 动 选项 指定 的 字符 集 对 请 求 的 字符 串 进行 编码 (这 一 点 
f 不 适用 于 类 UNIX 操作 系统 
比如 ， 我 们 在 Windows 的 命令 行 窗口 中 使 用 如 下 命令 启动 客户 端 (省 略 了 用 户 名 、 密 码 
等 其 他 启动 选项 ): 
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mysql -~-default-character-set=utf8 


那么 客户 端 将 会 以 UTF-8 字符 集 对 请 求 的 字符 串 进 行 编码 。 

服务 器 接收 请 求 

从 本 质 上 来 说 ， 服务 器 接收 到 的 请 求 就 是 一 个 字 节 序 列 。 服务 器 将 这 个 字 节 序列 看 作 是 
使 用 系统 变量 character set client 代表 的 字符 集 进行 编码 的 字 节 序列 (每 个 客户 端 与 服务 器 
建立 连接 后 ， 服务 器 都 会 为 该 客户 端 维 护 一 个 单独 的 character_set_client 变量 ， 这 个 变量 是 
SESSION 级 别 的 )。 

公家 在 这 里 应 该 意识 到 一 件 事 儿 ; 客户 端 在 编码 请 求 字符 串 时 实际 使 用 的 字符 集 ， 与 服务 
侣 在 收 到 一 个 字 节 序列 后 认为 该 字 节 序列 所 采用 的 编码 字符 集 ， 是 两 个 独立 的 字符 集 。 一 般 情 
况 下 ， 我 们 应 该 尽量 保证 这 两 个 字符 集 是 一 致 的 。 就 像 我 跟 你 说 的 是 中 文 ， 你 也 要 把 听 到 的 话 
当成 中 文 来 理解 ， 如 果 你 要 把 它 当 成 英文 来 理解 ， 那 就 把 人 整 迷糊 了 。 

当然 ， 我 们 并 不 限制 你 非 要 把 中 文 当成 英文 来 理解 的 权利 ， 就 像 在 MySQL 中 可 以 通 
过 SET 命令 来 修改 character set_client 的 值 一 样 。 假 如 客户 端 实际 使 用 UTF-8 字符 集 来 


编码 请 求 的 字符 串 ， 我 们 还 是 可 以 通过 下 面 的 命令 将 character set client 设置 为 latin] 字 
从 集 : 

SET character_set_client=latinul， 

这 样 一 来 ， 就 发 生 了 “ 鸡 同 鸭 讲 ”的 事情 。 比 如 ， 客户 端 实际 发 送 的 是 一 个 汉字 字符 ' 我 ， 
“UTF-8 的 编码 为 0xE68891) ， 但 服务 器 却 将 其 理解 为 3 个 字符 : 8'、" 和 

为 外 还 需要 注意 的 是 ， 如 果 character set client 对 应 的 字符 集 不 能 解释 请 求 的 字 节 序列 ， 
那么 服务 器 就 会 发 出 警告 。 比 如 ， 客 户 端 实际 使 用 UTF-8 字符 集 来 编码 请 求 的 字符 串 ， 我 们 


现在 把 character_set_client 设置 成 ascii 字符 集 ， 而 请 求 字符 串 中 包含 了 一 个 汉字 ' 我 ' (对 应 的 
子 节 序列 就 是 0xE68891)， 那 么 将 会 发 生 这 样 的 事情 : 


mysql> SET character_ set client=ascii; 
Query OK, 0 rows affected (0.00 Sec) 


mysql> SELECT ' 我 '; 


+~~--- + 
| ?3232 | 
+ 一 一 一 一 一 + 
L 
+ 一 一 一 一 一 ~ 


l row in set, 1 warning (0.00 sec) 
| 


mysql> SHOW WARNINGS\G 

育 刘 寅 宙 商 实 六 突 育 计 计 计 诊 奖 类 再 在 二 测 需 去 到 二 入 业 前 雪 和 row TE EE 
Level: Warning 
Code: 1300 


Message: Invalid ascii character string: '\xE6\x88\x91' 
1 row in set (0.00 sec) 


从 上 面 的 输出 结果 中 可 以 看 到 ，0xE68891 并 不 是 正确 的 ascii 字符 。 
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服务 器 处 理 请 求 

我 们 知道 ， 服 务 器 会 将 请 求 的 字 节 序列 当 作 采用 character set client 对 应 的 字符 集 进行 
编码 的 字 节 序列 ， 不 过 在 真正 处 理 请 求 时 又 会 将 其 转换 为 使 用 SESSION 级 别 的 系统 变量 
character set connection 对 应 的 字符 集 进行 编码 的 字 节 序列 。 

我 们 也 可 以 通过 SET 命令 单独 修改 character set_ connection 系统 变量 。 比 如 ， 客 户 端 发 
送 给 服务 器 的 请 求 中 包含 字 节 序列 0xE68891， 然 后 服务 器 针对 该 客户 端的 系统 变量 character 
set client 为 utf8， 此 时 服务 器 就 知道 该 字 节 序 列 其 实 是 代表 汉字 ' 我 "。 如 果 服 务 器 针对 该 客 
户 端的 系统 变量 character set connection 为 gbk， 那 么 还 要 在 计算 机 内 部 将 该 字符 转换 为 采用 
gbk 字符 集 编码 的 形式 ， 也 就 是 0xCED2。 

有 的 同学 可 能 认为 这 一 步骤 多 此 一 举 了 ， 但 是 请 考虑 下 面 这 个 查询 语句 : 


mysql> SELECT ‘a' = 'A'; 


这 个 查询 语句 的 返回 结果 是 TRUE 还 是 FALSE ? 其 实 仅 仅 根 据 这 个 语句 是 不 能 确定 结果 
的 。 这 是 因为 我 们 并 不 知道 这 两 个 字符 串 到 底 采 用 了 什么 字符 集 进行 编码 ， 也 不 知道 这 里 使 用 
的 比较 规则 是 什么 。 

此 时 ，character set connection 系统 变量 就 发 挥 了 作用 ， 它 表示 这 些 字 符 串 应 该 使 用 哪 
种 字符 集 进 行 编码 。 当 然 ， 还 有 一 个 与 之 配套 的 系统 变量 collation connection， 这 个 系统 变 
量 表示 这 些 字 符 串 应 该 使 用 哪 种 比较 规则 。 现 在 通过 SET 命令 将 character set_ connection 和 
collation connection 系统 变量 的 值 分 别 设置 为 gbk 和 gbk_chinese_ci， 然 后 再 比较 'a 和 'A': 


mysql> SET character_ set_connection=gbk; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SET collation connection=gbk_ chinese_ ci; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT 'a' = 'A'; 


二 一 一 一 一 一 一 一 一 一 一 一 + 
| 'a' = 有 | 
+ 一 一 一 一 一 一 一 一 一 一 一 + 
| 1 | 
十 一 一 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


可 以 看 到 ， 在 这 种 情况 下 这 两 个 字符 串 是 相等 的 。 
现在 通过 SET 命令 修改 character set_connection 和 collation connection 的 值 ， 将 它们 分 别 
设置 为 gbk 和 gbk bin， 然 后 比较 'a 和 'A': 


mysql> SET character set_connection=gbk; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SET collation connection=gbk bin; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT ‘a' = ‘A'; 


"" ' a 
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1 row in set (0.00 sec) 


可 以 看 到 ， 在 这 种 情况 下 这 两 个 字符 串 就 不 相等 了 。 
我 们 接 下 来 考虑 请 求 中 的 字符 串 和 某 个 列 进行 比较 的 情况 。 比 如 我 们 有 一 个 表 tt : 


CREATE TABLE tt ( 
C VARCHAR (100) 
) ENGINE=INNODB CHARSET=utf£8; 


很 显然 ， 列 c 采 用 的 字符 集 和 表 级 别 字 符 集 utf8 一 致 。 这 里 采用 默认 的 比较 规则 utf8_ 
general ci。 表 tt 中 有 一 条 记录 : 


mysql> SELECT * FROM tt; 


1 row lin set (0.00 sec) 


假设 现在 character_set_connection 和 collation connection 的 值 分 别 设置 为 gbk 和 gbk_chinese_ 
ci。 然 后 我 们 有 下 面 这 样 一 条 查询 语句 : 


SELECT * FROM tt WHERE c = ' 我 '; 


在 执行 这 个 语句 前 ， 面 临 一 个 很 重要 的 问题 : 字符 串 ' 我 ' 是 使 用 gbk 字符 集 进行 编码 的 ， 
比较 规则 是 gbk chinese ci ; 而 列 c 是 采用 utf8 字符 集 进行 编码 的 ， 比 较 规则 为 utf8_general 
ci。 这 该 怎么 比较 呢 ? 设计 MySQL 的 大 叔 规定 ， 在 这 种 情况 下 ， 列 的 字符 集 和 排序 规则 的 优 
先 级 更 高 。 因 此 ， 这 里 需要 将 请 求 中 的 字符 串 ' 我 ' 先 从 gbk 字符 集 转换 为 utf8 字符 集 ， 然 后 
再 使 用 列 c 的 比较 规则 utf8_general ci 进行 比较 。 

服务 器 生成 响应 

还 是 以 前 面 创 建 的 表 tt 为 例 。 列 c 是 使 用 utf8 字符 集 进 行 编码 的 ， 所 以 字符 串 ' 我 ' 在 列 
c 中 的 存放 格式 就 是 0xE68891。 当 执行 下 面 这 个 语句 时 : 


SELECT * FROM tt; 


是 不 是 直接 将 0xE68891 读 出 后 发 送 到 客户 端 昵 ?” 这 可 不 一 定 ， 这 取决 于 SESSION 级 别 的 系 
统 变量 character_set_results 的 值 。 服 务 器 会 先 将 字符 串 ' 我 ' 从 utf8 字符 集 编码 的 0xE68891 转 
换 为 character_set_results 系统 变量 对 应 的 字符 集 编 码 后 的 字 节 序列 ， 之 后 再 发 送 给 客户 端 。 

如 果 有 特殊 需要 ， 也 可 以 使 用 SET 命令 来 修改 character set results 的 值 。 比 如 我 们 执行 
下 述 语 句 : 


SET character set results = gbk; 


那么 ， 如 果 再 次 执行 SELECT * FROM tt 语句 ， 在 服务 器 返回 给 客户 端的 响应 中 ， 字 符 串 
' 我 ' 对 应 的 就 是 字 节 序列 0xCED2。 


th 
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现在 已 经 虹 帅 完了 character set client、character set connection 和 character set results 这 
3 个 系统 变量 ， 需 要 总 结 一 下 了 。 这 3 个 系统 变量 的 作用 如 表 3-5 所 示 。 


表 3-5 character_set_client、character_set_connection 和 character_set_results 系统 变量 的 作用 
系统 变量 描述 
character set_client 服务 器 认为 请 求 是 按照 该 系统 变量 指定 的 字符 集 进行 编码 的 
服务 器 在 处 理 请 求 时 ， 会 把 请 求 字 节 序列 从 character set client 转换 为 character 


character set connection 
es set connection 


character_set_results 服务 器 采用 该 系统 变量 指定 的 字符 集 对 返回 给 客户 端的 字符 串 进行 编码 


这 3 个 系统 变量 在 服务 器 中 的 作用 范围 都 是 SESSION 级 别 。 每 个 客户 端 在 与 服务 器 建立 
连接 后 ， 服 务 器 都 会 为 这 个 连接 维护 这 3 个 变量 ， 如 图 3-3 所 示 假 设 连接 1 的 这 3 个 变量 均 
为 utf8， 连 接 2 的 这 3 个 变量 均 为 gbk， 连 接 3 的 这 3 个 变量 均 为 latinl )。 


character set client utf8 
: character set connection: utf8 
character set results: utf8 


character set client: gbk 
: character set connection: gbk 
character set results: gbk 


character set client: latin1 
: character set connection: latin]l 
character set results: latinl 





图 3-3 客户 端 与 服务 器 建立 连接 后 ， 服 务 器 维护 的 变量 


每 个 MySQL 客户 端 都 维护 着 一 个 客户 端 默认 字符 集 ， 客 户 端 在 启动 时 会 自动 检测 所 在 操 
作 系 统 当前 使 用 的 字符 集 ， 并 按照 一 定 的 规则 映射 成 MySQL 支持 的 字符 集 ， 然 后 将 该 字符 
集 作 为 客户 端 默认 的 字符 集 。 通 常 的 情况 是 ， 操 作 系统 当前 使 用 什么 字符 集 ， 就 映射 为 什么 
字符 集 。 但 是 总 存在 一 些 特 殊 情况 。 假 如 操作 系统 当前 使 用 的 是 ascii 字符 集 ， 则 会 被 映射 为 
MySQL 支持 的 latinl 字符 集 。 如 果 MySQL 不 支持 操作 系统 当前 使 用 的 字符 集 ， 则 会 将 客户 
端 默 认 的 字符 集 设 置 为 MySQL 的 默认 字符 集 。 


疹 : 人 MySQL 5.7 以 及 之 前 的 版 本 中 ，。 MySQL 的 网 认 字符 入 为 1 自 MySQE 8.0 
小 贴 十 版 本 开始 ，MySQL 的 默认 字符 集 改 为 utf8mb4. 


另外 ， 如 果 在 局 动 MySQL 客户 端 时 设置 了 default-character-set 启动 选项 ， 那 么 服务 器 会 
忽视 操作 系统 当前 使 用 的 字符 集 ， 直 接 将 default-character-set 启动 选项 中 指定 的 值 作为 客户 端 
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的 默认 字符 集 。 


在 连接 服务 器 时 ， 客 户 端 将 默认 的 字符 集 信 息 与 用 户 名 、 密码 等 信息 一 起 发 送 给 服务 器 ， 
服务 器 在 收 到 后 会 将 character set_client、character set connection 和 character set results 这 3 
个 系统 变量 的 值 初始 化 为 客户 端的 默认 字符 集 。 


在 客户 端 成 功 连接 到 服务 器 后 ， 可 以 使 用 SET 语句 分 别 修改 character set client、character 
Set_ connection 和 character set_ results 系统 变量 的 值 ， 也 可 以 使 用 下 面 的 语句 一 次 性 修改 这 几 
个 系统 变量 的 值 : 


SET NAMES charset name; 
上 面 这 条 语句 与 下 面 这 3 条 语句 的 效果 一 样 ， 


SET character set client = charset name; 
SET character set results = charset name; 
SET character set connection = charset name; 


个 过 需要 特别 注意 的 是 ，SET NAMES 语句 并 不 会 改变 客户 端 在 编码 请 求 字符 串 时 使 用 的 
字符 集 ， 也 不 会 修改 客户 端的 默认 字符 集 。 


客户 端 接收 到 响应 


苔 三 端 收 到 的 响应 其 实 也 是 一 个 字 节 序列 。 对 于 类 UNIX 操作 系统 来 说 ， 收 到 的 字 节 序 
”天 本 二 相当 于 直接 写 到 黑 框框 中 〈 请 注意 这 里 的 用 词 是 “基本 上 相当 于 ”， 其 实 内 部 还 会 做 
“于 工作 ， 这 里 就 不 关注 具体 细节 了 )， 再 由 黑 框框 将 这 个 字 节 序列 解释 为 人 类 能 看 懂 的 字 
《如 果 没有 特殊 设置 的 话 ， 一 般 用 操作 系统 当前 使 用 的 字符 集 来 解释 这 个 字 节 序列 )、 对 于 
Windows 操作 系统 来 说 ， 客 户 端 会 使 用 客户 端的 默认 字符 集 来 解释 这 个 字 节 序列 。 


和 


Lv 对 于 类 UNIX 操作 系统 未 说 ， 在 向 黑 框框 中 写 入 效 据 时 沁 油 用 半 是 过 谢 吕 关头 总 
和 5 对 于 Windows 操作 系统 来 说 ， 调 用 的 是 系统 函数 WriteConsoleW， 对 
小 贴 士 ”源码 感 兴趣 的 读者 可 以 进一步 研究 、 a : 
我 们 通过 一 个 例子 来 理解 这 个 过 程 。 比如 操作 系统 当前 使 用 的 字符 集 为 UTF-8， 我 们 在 启 
动 MySQL 客户 端 时 使 用 了 --default-character-set=gbk 启动 选项 ， 那么 客户 端的 默认 字符 集会 
锌 设置 为 gbk， 服 务 器 的 character set_results 系统 变量 的 值 也 会 被 设置 为 gbk。 现 在 假设 服务 
全 的 响应 中 包含 字符 ' 我 '， 发 送 到 客户 端的 字 节 序列 就 是 ' 我 ' 的 gbk 编码 0xCED2， 针 对 不 
同 的 操作 系统 ， 会 发 生 如 下 行为 。 
。 对 于 类 UNIX 操作 系统 来 说 ， 会 把 接收 到 的 字 节 序列 (也 就 是 0xCED2) 直接 写 到 黑 
框框 中 ， 并 默认 使 用 操作 系统 当前 使 用 的 字符 集 (UTF-8) 来 解释 这 个 字符 。 很 显然 
无 法 解释 ， 所 以 我 们 在 屏幕 上 看 到 的 就 是 乱码 。 
e 对 于 类 Windows 操作 系统 来 说 ， 会 使 用 客户 端的 默认 字符 集 (gbk) 来 解释 这 个 字符 ， 
很 显然 会 成 功 地 解释 成 字符 ' 我 '。 
上 面 踪 轨 了 这 么 多 东西 ， 主要 是 想 让 大 家 明白 $ 件 事情 : 
国 客户 端 发 送 的 请 求 字 节 序列 是 采用 哪 种 字符 集 进行 编码 的 ; 
服务 器 接收 到 请 求 字 节 序列 后 会 认为 它 是 采用 哪 种 字符 集 进行 编码 的 ; 
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e@ 服务 器 在 运行 过 程 中 会 把 请 求 的 字 节 序列 转换 为 以 哪 种 字符 集 编码 的 字 节 序 列 ; | 
e@ 服务 器 在 向 客户 端 返回 字 节 序列 时 ， 是 采用 哪 种 字符 集 进 行 编码 的 ; 
e@ 客户 端 在 收 到 响应 字 节 序列 后 ， 是 怎么 把 它们 写 到 黑 框 框框 中 的 。 


3.3.3 ”比较 规则 的 应 用 


结束 了 字符 集 的 “漫游 ”， 我 们 把 视角 再 次 聚焦 到 比较 规则 。 比 较 规 则 通常 用 来 比较 字符 | 
串 的 大 小 以 及 对 某 些 字 符 串 进行 排序 ， 所 以 有 时 候 也 称 为 排序 规则 。 比 如 表 t 的 列 col 使 用 的 
字符 集 是 gbk， 使 用 的 比较 规则 是 gbk_chinese_ci， 我 们 向 里 面 插入 几 条 记录 : 


mysql> INSERT INTO t(col) VALUES('a'), ('b'), ('A'), ('B'); . 
Query OK, 4 rows affected (0.00 sec) 
Records: 4 Duplicates: 0 Warnings: 0 


我 们 在 查询 的 时 候 按照 col 列 排序 一 下 : 


mysql> SELECT * FROM t ORDER BY col; 


5 rows in set (0.00 sec) 


可 以 看 到 在 默认 的 比较 规则 gbk_chinese_ci 中 是 不 区 分 大 小 写 的 。 我 们 现在 把 列 col 的 比 
较 规则 修改 为 gbk_bin : 
mysql> ALTER TABLE t MODIFY col VARCHAR(10) COLLATE gbk bin; 


Query OK, 5 rows affected (0.02 sec) 
Records: 5 Duplicates: 0 Warnings: 0 


由 于 gbk bin 是 直接 比较 字符 的 二 进 制 编码 ， 所 以 是 区 分 大 小 写 的 。 我 们 看 一 下 排序 后 的 
查询 结果 : 


mysql> SELECT * FROM t ORDER BY col; 





5 rows in set (0.00 sec) 


大 家 在 对 字符 串 进行 比较 ， 或 者 对 某 个 字符 串 列 执行 排序 操作 时 ， 如 果 没 有 得 到 想象 中 的 
结果 ， 需 要 思考 一 下 是 不 是 比较 规则 的 问题 。 
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3.4 总 结 


字符 集 指 的 是 某 个 字符 范围 的 编码 规则 。 
比较 规则 是 对 某 个 字符 集中 的 字符 比较 大 小 的 一 种 规则 。 
在 MySQL 中 ， 一 个 字符 集 可 以 有 若干 种 比较 规则 ， 其 中 有 一 个 默认 的 比较 规则 。 一 
较 规 则 必须 对 应 一 个 字符 集 。 
在 MySQL 中 查看 支持 的 字符 集 和 比较 规则 的 语句 如 下 : 
e SHOW (CHARACTER SETICHARSET) [LIKE 匹配 的 模式 ]; 
e SHOW COLLATION [LIKE 匹配 的 模式 ]; 
MySQL 有 4 个 级 别 的 字符 集 和 比较 规则 ， 具 体 如 下 。 
e 服务 器 级 别 
character set server 表示 服务 器 级 别 的 字符 集 ，collation_server 表示 服务 器 级 别 的 比较 
规则 。 
e 数据 库 级 别 
创建 和 修改 数据 库 时 可 以 指定 字符 集 和 比较 规则 : 
CREATE DATABASE 数据 库 名 


[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[ [DEFAULT] COLLATE 比较 规则 名 称 ] ; 
| 


ALTER DATABASE 数据 库 名 
[ [DEFAULT]】 CHARACTER SET 字符 集 名 称 ] 
[ [DEFAULT] COLLATE 比较 规则 名 称 ] ; 


character set database 表示 当前 数据 库 的 字符 集 ，collation_database 表示 当前 数据 库 的 比较 


规则 。 这 两 个 系统 变量 只 用 来 读 取 ， 修 改 它 们 并 不 会 改变 当前 数据 库 的 字符 集 和 比较 规则 。 


如 果 没 有 指定 当前 数据 库 ， 则 这 两 个 系统 变量 与 服务 器 级 别 相应 的 系统 变量 具有 相同 的 值 。 
e 表 级 别 


创建 和 修改 表 的 时 候 指定 表 的 字符 集 和 比较 规则 : 
CREATE TABLE 表 名 ( 列 的 信息 ) ， 

[[DEFRULT] CHARACTER SET 字符 集 名 称 ] 

[COLLATE 比较 规则 名 称 ] ; 


ALTER TABLE 表 名 
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[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[COLLATE 比较 规则 名 称 ] ; 


@ 列 级 别 


创建 和 修改 列 的 时 候 指 定 该 列 的 字符 集 和 比较 规则 : 


CREATE TABLE 表 名 ( 


列 名 字符 串 类 型 [CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ] ， 
其 他 列 . . . 
) ; 


ALTER TABLE 表 名 MODIFY 列 名 字符 串 类 型 [CHARRCTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ] ; 


从 发 送 请 求 到 接收 响应 的 过 程 中 发 生 的 字符 集 转换 如 下 所 示 。 


客户 端 发 送 的 请 求 字 节 序列 是 采用 哪 种 字符 集 进 行 编码 的 。 

这 一 步骤 主要 取决 于 操作 系统 当前 使 用 的 字符 集 ; 对 于 Windows 操作 系统 来 说 ， 还 与 
客户 端 启动 时 设置 的 default-character-set 启动 选项 有 关 。 

服务 器 接收 到 请 求 字 节 序 列 后 会 认为 它 是 采用 哪 种 字符 集 进 行 编码 的 。 

这 一 步骤 取决 于 系统 变量 character set_cjient 的 值 。 

服务 器 在 运行 过 程 中 会 把 请 求 的 字 节 序列 转换 为 以 哪 种 字符 集 编码 的 字 节 序列 。 

这 一 步骤 取决 于 系统 变量 character_set_connection 的 值 。 

服务 器 在 向 客户 端 返回 字 节 序列 时 ， 是 采用 哪 种 字符 集 进行 编码 的 。 

这 一 步骤 取决 于 系统 变量 character_set_results 的 值 。 

客户 端 在 收 到 响应 字 节 序列 后 ， 是 怎么 把 它们 写 到 黑 框框 中 的 。 

这 一 步骤 主要 取决 于 操作 系统 当前 使 用 的 字符 集 ; 对 于 Windows 操作 系统 来 说 ， 还 与 
客户 端 启动 时 设置 的 default-character-set 启动 选项 有 关 。 


在 这 个 过 程 中 ， 各 个 系统 变量 的 含义 如 表 3-6 所 示 。 


character set Connection 


表 3-6 系统 变量 及 其 含义 
系统 变量 描述 


character_set_client 服务 器 认为 请 求 是 按照 该 系统 变量 指定 的 字符 集 进行 编码 的 
服务 器 在 处 理 请 求 时 ， 会 把 请 求 字 节 序 列 从 character_set_client 转换 为 


character set connection 


character_set_results 服务 器 采用 该 系统 变量 指定 的 字符 集 对 返回 给 客户 端的 字符 串 进行 编码 


比较 规则 通常 用 来 比较 字符 串 的 大 小 以 及 对 某 些 字 符 串 进行 排列 。 
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4.1 准备 工作 


到 现在 为 止 ，MySQL 对 于 我 们 来 说 还 是 一 个 “ 黑 盒 ”， 我 们 只 负责 使 用 客户 端 发 送 请 求 
并 等 待 服务 器 返回 结果 。 表 中 的 数据 到 底 存 到 了 哪里 ? 以 什么 格式 存放 的 ? MySQL 以 什么 方 
式 来 访问 这 些 数 据 ? 这 些 问 题 的 答案 我 们 统统 不 知道 。 

我 们 前 面 在 啼 路 请 求 处 理 过 程 的 时 候 提 到 ， MySQL 服务 器 中 负责 对 表 中 的 数据 进行 
读 取 和 写 入 工作 的 部 分 是 存储 引 警 ， 而 服务 器 又 支持 不 同类 型 的 存储 引擎 ， 比 如 InnoDB、 
MyISAM、MEMORY 啥 的 。 不 同 的 存储 引擎 一 般 是 由 不 同 的 人 为 实现 不 同 的 特性 而 开发 的 ， 
真实 数据 在 不 同 存储 引擎 中 的 存放 格式 一 般 是 不 同 的 ， 甚 至 有 的 存储 引擎 〈 比 如 MEMORY ) 
都 不 用 磁盘 来 存储 数据 。 也 就 是 对 于 使 用 MEMORY 存储 引擎 的 表 来 说 ， 关 闭 服务 器 后 表 中 的 
数据 就 消失 了 。 由 于 InnoDB 是 MySQL 默认 的 存储 引擎 ， 也 是 我 们 最 常用 到 的 存储 引擎 ， 男 
外 我 们 也 没有 那么 多 时 间 去 把 各 个 存储 引擎 的 内 部 实现 都 看 一 遍 ， 所 以 本 章 要 啼 明 的 是 使 用 
InnoDB 作为 存储 引擎 的 记录 存储 结构 。 在 了 解 了 一 个 存储 引擎 的 记录 存储 结构 之 后 ， 其 他 的 
存储 引擎 都 是 “ 依 戎 上 芦 画 村 ”， 就 不 多 啼 明 了 。 


4.2 InnoDB 页 简介 


InnoDB 是 一 个 将 表 中 的 数据 存储 到 磁盘 上 的 存储 引擎 ， 即 使 我 们 关闭 并 重启 服务 器 ， 数 
据 还 是 存在 。 而 真正 处 理 数据 的 过 程 发 生 在 内 存 中 ， 所 以 需要 把 磁盘 中 的 数据 加 载 到 内 存 中 。 
如 果 是 处 理 写 入 或 修改 请 求 ， 还 需要 把 内 存 中 的 内 容 刷 新 到 磁盘 上 。 而 我 们 知道 读 写 磁盘 的 
速度 非常 慢 ， 与 读 写 内 存 差 了 几 个 数量 级 。 当 我 们 想 从 表 中 获取 菜 些 记录 时 ，InnoDB 存储 引 
擎 需要 一 条 一 条 地 把 记录 从 磁盘 上 读 出 来 么 ? 不 ， 那 样 会 慢 死 ，InnoDB 采取 的 方式 是 ， 将 数 
据 划 分 为 若干 个 页 ， 以 页 作为 磁盘 和 内 存 之 间 交 互 的 基本 单位 。InnoDB 中 页 的 大 小 一 般 为 
16KB。 也 就 是 在 一 般 情 况 下 ， 一 次 最 少 从 磁盘 中 读 取 16KB 的 内 容 到 内 存 中 ， 一 次 最 少 把 内 
存 中 的 16KB 内 容 刷 新 到 磁盘 中 。 


i 系统 变量 innodb_page size 表明 了 了 InnoDB 存储 引擎 中 的 页 大 小 ， 默认 值 为 16384 ( 单 
从: 位 是 字 节 )， 也 就 是 16KB。 该 变量 只 能 在 第 一 次 初始 化 MySQL 数据 目录 时 指定 ， 之 后 就 
中 十 再 也 不 能 更 改 了 ( 通过 命令 mysqld --initialize 来 初始 化 数据 目录 .我 们 之 前 没有 过 多 地 啼 忠 

初始 化 数据 目录 的 过 程 ， 大 家 只 要 知道 在 服务 器 运行 过 程 中 不 可 以 更 改 页 面 大 小 就 好 了 ). 
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4. 3 InnoDB 行 格式 


我 们 平时 都 是 以 记录 为 单位 向 表 中 插入 数据 的 ， 这 些 记 录 在 磁盘 上 的 存放 形式 也 被 称 为 行 
格式 或 者 记录 格式 。 设 计 InnoDB 存储 引擎 的 大 叔 到 现在 为 止 设 计 了 4 种 不 同类 型 的 行 格式 ， 
分 别 是 COMPACT、REDUNDANT、DYNAMIC 和 COMPRESSED。 随 着 时 间 的 推移 ， 他 们 可 
能 会 设计 出 更 多 的 行 格式 ， 但 是 不 管 怎么 变 ， 这 些 行 格式 在 原理 上 大 体 都 是 相同 的 。 


4.3.1 指定 行 格式 的 语法 


我 们 可 以 在 创建 或 修改 表 的 语句 中 指定 记录 所 使 用 的 行 格式 : 
CREATE TABLE 表 名 ( 列 的 信息 ) ROW_FORMAT= 行 格式 名 称 ; 


> ar 一 mr mm -人 人 -一 -一 - 


ALTER TABLE 表 名 ROW_FORMAT= 行 格式 名 称 ; 
比如 在 xiaohaizi 数据 库 中 创建 一 个 演示 用 的 表 record format demo， 可 以 这 样 指定 它 的 行 格式 : 


mysql> USE xiaohaizi; 
Database changed 


mysql> CREATE TABLE record format demo ( 


-> cl VARCHAR(10), 

一 > c2 VRRCHRR (10) NOT NULL, 
-> c3 CHAR(10), 

-> c4 VARCHAR (10) 


-> ) CHARSET=ascii ROW_ FORMAT=COMPACT; 
Query OK, 0 rows affected (0.03 sec) 


可 以 看 到 ， 我 们 刚刚 创建 的 这 个 表 的 行 格式 就 是 COMPACT。 另 外 ， 我 们 还 显 式 指定 了 这 
个 表 的 字符 集 为 ascii。 因 为 ascii 字符 集 只 包括 空格 、 标 点 符号 、 数 字 、 大 小 写字 母 和 一 些 不 
可 见 字符 ， 所 以 汉字 是 不 能 存 到 这 个 表 里 的 。 向 这 个 表 中 插入 两 条 记录 : 


mysql> INSERT INTO Fecord_format_demo(cl1，c2， c3, c4) VALUES ('aaaa', "bbb'， "cc"， "d')， 
('eeee', 'fff', NULL, NULL); 

Query OK, 2 rows affected (0.02 sec) 

Records: 2 Duplicates: 0 Warnings: 0 


现在 ， 表 中 的 记录 就 是 这 个 样子 的 : 


mysql> SELECT * FROM record format_ demo; 


二 一 一 一 一 一 一 + 一 一 一 一 一 + 一 一 一 一 一 一 二 一 一 一 一 一 一 十 
本 -3 1 | 3 | c4 | 
+ 一 -一 一 一 +- 一 一 一 + 一 一 一 一 一 + 一 一 一 一 一 一 + 
| aaaa | bbb | cc 1 | 
| eeee | fff | NULL | NULL | 
+ 一 一 一 一 一 一 + 一 一 -一 一 + 一 一 一 一 一 十 一 一 一 一 一 一 十 


2 rows in set (0.00 sec) 


演示 表 的 内 容 也 填充 好 了 ， 现 在 来 看 看 各 个 行 格式 下 的 存储 结构 到 底 有 哈 不 同 。 
4.3.2 COMPACT 行 格式 
话 不 多 说 ， 直 接 看 图 4-1。 


4.3 InnoDB 行 格式 57 





图 4-1 _ COMPACT 行 格 式 示 意图 


从 图 4-1 中 可 以 看 出 ， 一 条 完整 的 记录 其 实 可 以 被 分 为 记录 的 额外 信息 和 记录 的 真实 数据 
两 大 部 分 。 下 面 我 们 分 别 看 一 下 这 两 大 部 分 的 组 成 。 


1. 记录 的 额外 信息 

这 部 分 信息 是 服务 器 为 了 更 好 地 管理 记录 而 不 得 不 额外 添加 的 一 些 信 息 。 这 些 额外 信息 分 
为 3 个 部 分 ， 分别 是 变 长 字段 长 度 列表 、NULL 值 列表 和 记录 头 信息 。 

(1) 变 长 字段 长 度 列表 

我 们 知道 ，MySQL 文 持 一 些 变 长 的 数据 类 型 ， 比 如 VARCHAR(M)、VARBINARY(M)、 
各 种 TEXT 类 型 、 各 种 BLOB 类 型 。 我 们 也 可 以 把 拥有 这 些 数据 类 型 的 列 称 为 变 长 字段 。 变 
长 字段 中 存储 多 少 字 节 的 数据 是 不 固定 的 ， 所 以 我 们 在 存储 真实 数据 的 时 候 需 要 顺便 把 这 些 数 
据 占用 的 字 节 数 也 存 起 来 ， 这 样 才 不 至 于 把 MySQL 服务 器 搞 慌 。 也 就 是 说 这 些 变 长 字段 占用 
的 存储 空间 分 为 两 部 分 : 

e@ 真正 的 数据 内 容 ; 

e 该 数据 占用 的 字 节 数 。 

在 COMPACT 行 格 式 中 ， 所 有 变 长 字段 的 真实 数据 占用 的 字 节 数 都 存放 在 记录 的 开头 位 
置 ， 从 而 形成 一 个 变 长 字段 长 度 列表 ， 各 变 长 字段 的 真实 数据 占用 的 字 节 数 按照 列 的 顺序 逆序 


存放 。 再 次 强调 一 遍 ， 是 道 序 存 放 ! 

四、 关于 为 哈 进 库存 放 会 在 下 一 章 介绍 ， 这 里 少 安 丝 踩 . 

小 贴 十 es A 
我 们 拿 record format demo 表 中 的 第 一 条 记录 来 举 个 例子 。 因 为 record_format_demo 表 的 

cl、c2、c4 列 都 是 VARCHAR(10) 类 型 的 ， 也 就 是 变 长 的 数据 类 型 ， 所 以 这 3 个 列 的 值 占用 

的 存储 空间 字 节 数 都 需要 保存 在 记录 开头 处 。record format demo 表 中 的 各 个 列 使 用 的 都 是 


ascii 字符 集 ， 每 个 字符 只 需要 一 个 字 节 来 编码 。 来 看 一 下 第 一 条 记录 各 变 长 字段 内 容 的 长 度 
( 见 表 4-1)。 


表 4-1 ”第 一 条 记录 中 各 变 长 字段 内 容 的 长 度 


列 名 内 容 长 度 〈 十 六 进 制 表示 ) 
| 加 
au 
| 二 


因为 这 些 长 度 值 需要 按照 列 的 顺序 逆序 存放， 所 以 最 后 变 长 字段 长 度 列 表 的 字 节 串 用 十 六 


> 
一 
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进 制 表 示 的 效果 就 是 : 
01 03 04 


需要 说 明 的 是 ， 上 述 各 个 字 节 之 间 实 际 上 没有 空格 ， 这 里 使 用 空格 只 是 为 了 方便 理解 。 
把 这 个 字 节 串 组 成 的 变 长 字段 长 度 列表 填 入 图 4-1 中 的 效果 如 图 4-2 所 示 。 





第 一 条 记录 的 存储 格式 : | “010304 “”” 改 、 记录 头 信息 | 列 
> 有 2 
图 4-2 第 一 条 记录 的 存储 格式 


由 于 第 一 条 记录 中 cl、c2、o4 列 中 的 字符 串 都 比较 短 ， 也 就 是 说 占用 的 字 节 数 比 较 小 (cl 列 
内 容 是 aaaa'， 占 用 4 字 节 ; c2 列 内 容 是 bbb'， 占 用 3 字 节 ; c4 列 内 容 是 '， 占 用 1 字 节 )， 每 个 变 长 
字段 的 内 容 占 用 的 字 节 数 用 1 字 节 就 可 以 表示 (也 就 是 4、3、1 这 3 个 数字 可 以 分 别 用 字 节 0x04、 
0x03、0x01 表示 )。 但 是 ， 如 果 变 长 字段 的 内 容 占 用 的 字 节 数 比 较 多 ， 可 能 就 需要 用 2 字 节 来 表示 。 
至 于 用 1 字 节 还 是 2 字 节 来 表示 变 长 字段 的 真实 数据 占用 的 字 节 数 ，InnoDB 有 它 的 一 套 规 则 。 为 
了 更 好 地 表述 清楚 这 个 规则 ， 我 们 引入 W、M 和 工 这 几 个 符号 ， 先 分 别 看 看 这 些 符 号 的 意思 ，。 
e 假设 某 个 字符 集中 最 多 需要 W 字 节 来 表示 一 个 字符 (也 就 执行 SHOW CHARSET 语 
句 后 结果 中 的 Maxlen 列 )。 比 如 utfgmb4 字符 集中 的 W 就 是 4，utf8 字符 集中 的 W 就 
是 3，gbk 字符 集中 的 W 就 是 2，ascii 字符 集中 的 W 就 是 1。 
e@ 对 于 变 长 类 型 YARCHAR(M) 来 说 ， 这 种 类 型 表示 能 存储 最 多 M 个 字符 (注意 是 字符 
不 是 字 节 )， 所 以 这 种 类 型 能 表示 的 字符 串 最 多 占用 的 字 节 数 就 是 M x W。 
e 假设 该 变 长 字段 实际 存储 的 字符 串 占用 的 字 节 数 是 LL。 
确定 使 用 1 字 节 还 是 2 字 节 来 表示 一 个 变 长 字段 的 真实 数据 占用 的 字 节 数 的 规则 就 是 这 样 : 
e 如 果 MxW 三 255， 那 么 使 用 1 字 节 来 表示 真实 数据 占用 的 字 节 数 。 


~ InnoDB 在 读 取 记 录 的 变 长 字段 长 度 列 表 时 先 查 看 表 结 构 ， 先 查看 表 结构 ， 先 查看 
“、“ 表 结构 (重要 的 事情 说 三 遍 ) 如 果菜 个 变 长 字段 允许 存储 的 最 大 字 节 数 不 大 于 255， 可 
小 贴 士 “以 认为 只 使 用 1 字 节 来 表示 真实 数据 占用 的 字 节 数 . 


@ 如 果 M xW>255， 则 分 为 下 面 两 种 情况 : 
@ 如 果 工 过 127， 则 用 1 字 节 来 表示 真实 数据 占用 的 字 节 数 ; 
@ 如果 直 > 127， 则 用 2 字 节 来 表示 真实 数据 占用 的 字 节 数 。 


;InnoDB 在 读 取 记 录 的 变 长 字段 长 度 列表 时 先 查看 表 结 构 。 -如果 某 个 变 长 字段 允 
许 存 储 的 最 大 字 节 数 大 于 255， 该 怎么 区 分 它 正在 读 的 某 个 字 节 是 一 个 单独 的 字段 长 
度 还 是 半 个 字段 长 度 呢 ?设计 InnoDB 的 大 叔 使 用 该 字 节 的 第 一 个 二 进 制 位 作为 标志 
位 :如 果 该 字 节 的 第 一 个 位 为 0， 该 字 节 就 是 一 个 单独 的 字段 长 度 (在 使 用 一 个 字 节 
表示 不 大 于 127 的 数字 时 ， 第 一 个 位 都 为 0); 如 果 该 字 节 的 第 一 个 位 为 1， 该 字 节 
就 是 半 个 字段 长 度 。 这 个 规则 特别 像 我 们 前 面 说 过 的 GBK 字符 集 的 编码 规则 . 
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| 
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对 于 一 条 记录 来 说 ， 如 果 某 个 字段 占用 的 字 节 数 特别 多 5 InnooDB, 有 可 能 把 该 字段 
的 值 的 一 部 分 数据 存放 到 所 谓 的 溢出 页 中 【我 们 后 面 会 详细 嘴 中 ) :那么 该 字段 在 记录 的 
变 长 字段 长 度 列 表 处 只 存储 留 在 本 页 面 中 的 长 度 ， 所 以 使 用 2 字 节 就 本 以 表示 这 个 留 在 本 
页 面 中 的 字 节 长 度 。 尽管 也 是 使 用 2 字 节 ， 但 对 于 溢出 字段 来 说 ; 采用 的 方案 并 不 是 单纯 
地 将 首 字 节 的 第 一 个 二 进 制 位 置 为 0， 而 是 采用 了 一 种 特殊 的 表示 方式 .关于 表示 溢出 字 
段 占用 字 节 数 的 特殊 表示 方式 我 们 就 不 多 嘴 叫 了 ， 这 里 就 是 提 二 下 ,大 家 也 不 用 深 完 . 


总 结 一 下 就 是 : 如 果 该 变 长 字段 允许 存储 的 最 大 字 节 数 (M x W) 超过 255 字 节 ， 并 且 真 实数 
据 占 用 的 字 节 数 (L) 超过 127 字 节 ， 则 使 用 2 字 节 来 表示 真实 数据 占用 的 字 节 数 ， 和 否则 使 用 1 字 节 。 

另外 需要 注意 的 一 点 是 ， 变 长 字段 长 度 列 表 中 只 存储 值 为 非 NULL 的 列 的 内 容 长 度 ， 不 
存储 值 为 NULL 的 列 的 内 容 长 度 。 也 就 是 说 对 于 第 二 条 记录 ， 因 为 c4 列 的 值 为 NULL， 所 以 
第 二 条 记录 的 变 长 字段 长 度 列 表 只 需要 存储 cl 和 c2 列 的 内 容 长 度 即 可 。 其 中 cl 列 存 储 的 值 
为 'eeee'， 占用 的 字 节 数 为 4; c2 列 存 储 的 值 为 "PP， 占 用 的 字 节 数 为 3。 数 字 4 可 以 用 1 字 节 
(0x04) 表示 ，3 也 可 以 用 1 字 节 (0x03) 表示 ， 这 样 第 二 条 记录 的 整个 变 长 字段 长 度 列 表 共 
需 2 字 节 。 填 充 完 变 长 字段 长 度 列 表 的 两 条 记录 的 对 比如 图 4-3 所 示 。 


第 一 条 记录 的 存储 格式 : 


第 二 条 记录 的 存储 格式 : | 





图 4-3 ”两 条 记录 存储 格式 对 比 


二 


全: 并 不 是 所 有 记录 都 有 这 个 变 长 字段 长 度 列表 部 分 ， 如 果 表 中 所 有 的 列 都 不 是 变 长 的 
小 贴 士 ” 数据 类 型 或 者 所 有 列 的 值 都 是 NULL 的 话 ， 就 不 需要 有 变 长 字段 长 度 列表 


(2) NULL 值 列 表 
我 们 知道 ， 一 条 记录 中 的 某 些 列 可 能 存储 NULL 值 ， 如 果 把 这 些 NULL 值 都 放 到 记录 的 
真实 数据 中 存储 会 很 占 地 方 ， 所 以 COMPACT 行 格式 把 一 条 记录 中 值 为 NULL 的 列 统一 管理 
起 来 ， 存 储 到 NULL 值 列表 中 。 它 的 处 理 过 程 如 下 所 示 。 
1. 首先 统计 表 中 允许 存储 NULL 的 列 有 哪些 。 
主键 列 以 及 使 用 NOT NULL 修饰 的 列 都 是 不 可 以 存储 NULL 值 的 ， 所 以 在 统计 的 时 
候 不 会 把 这 些 列 算 进 去 。 比 如 表 record format demo 的 3 个 列 cl、c3、c4 都 允许 存储 
NULL 值 ， 而 c2 列 使 用 NOTNULL 进行 了 修饰 ， 不 允许 存储 NULL 值 。 
2. 如 果 表 中 没有 人 允许 存储 NULL 的 列 ， 则 NULL 值 列表 也 就 不 存在 了 ， 否 则 将 每 个 允许 
存储 NULL 的 列 对 应 一 个 二 进 制 位 ， 二 进 制 位 按照 列 的 顺序 逆序 排列 。 二 进 制 位 表示 
的 意义 如 下 : 
e@ 二进制 位 的 值 为 1 时， 代表 该 列 的 值 为 NULL ; 


一 一 一 

—— 
Oo 

a — 











60 第 4 章 从 一 条 记录 说 起 一 一 InnoDB 记录 存储 结构 


e@ 二进制 位 的 值 为 0 时， 代表 该 列 的 值 不 为 NULL。 

因为 表 record format demo 有 3 个 值 允许 为 NULL 的 列 ， 所 以 这 3 个 列 和 二 进 制 位 的 

对 应 关系 如 图 4-4 所 示 。 

再 一 次 强调 ， 二 进 制 位 按照 列 的 顺序 逆序 排列 ， 所 以 第 一 个 列 cl 和 最 后 一 个 二 进 制 位 对 应 。 
3. MySQL 规定 NULL 值 列表 必须 用 整数 个 字 节 的 位 表示 ， 如 果 使 用 的 二 进 制 位 个 数 不 

是 整数 个 字 节 ， 则 在 字 节 的 高 位 补 0。 

表 record format demo 只 有 3 个 值 允许 为 NULL 的 列 ， 对 应 3 个 二 进 制 位 ， 不足 一 个 

字 节 ， 所 以 在 字 节 的 高 位 补 0， 效 果 如 图 4-5 所 示 。 


cl C3 c4 





4-4 列 和 二 进 制 位 的 对 应 关系 4-5 字 节 高 位 补 0 的 效果 
依 此 类 推 ， 如 果 一 个 表 中 有 9 个 值 允 许 为 NULL 的 列 ， 则 这 个 记录 的 NULL 值 列表 部 分 
就 需要 2 字 节 来 表示 了 。 


知道 了 规则 之 后 ， 我 们 再 返回 头 看 看 表 record format demo 中 两 条 记录 中 的 NULL 值 列 
表 应 该 怎么 储存 。 因 为 只 有 cl、c3、c4 这 3 个 列 允 许 存 储 NULL 值 ， 所 以 记录 的 NULL 值 列 
表 处 只 需要 一 个 字 节 。 
e@ 对 于 第 一 条 记录 来 说 ，c1、c3、c4 这 3 个 列 的 值 都 不 为 NULL， 所 以 它们 对 应 的 二 进 
制 位 都 是 0， 如 图 4-6 所 示 。 
所 以 第 一 条 记录 的 NULL 值 列 表 用 十 六 进 制 表示 就 是 0x00。 
e@ 对 于 第 二 条 记录 来 说 ，cl1、c3、c4 这 3 个 列 中 c3 和 c4 的 值 都 为 NULL， 所 以 这 3 个 
列 对 应 的 二 进 制 位 的 情况 如 图 4-7 所 示 。 
所 以 第 二 条 记录 的 NULL 值 列 表 用 十 六 进 制 表示 就 是 0x06。 


cl c3 c4 | c3 c4 





图 4-6 第 一 条 记录 的 cl、c3、c4 三 个 列 的 值 图 4-7 第 二 条 记录 的 cl、c3、c4 三 个 列 的 值 
这 两 条 记录 在 填充 了 NULL 值 列表 后 的 示意 图 如 图 4-8 所 示 。 


二 PO 
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记录 的 真实 数据 


第 一 条 记录 的 存储 格式 : | 









第 二 条 记录 的 存储 格式 : 


图 4-8 两 条 记录 在 填充 了 NULL 值 列 表 后 的 示意 图 


(3) 记录 头 信息 

除了 变 长 字段 长 度 列 表 、NULL 值 列表 之 外 ， 还 有 一 个 称 之 为 记录 头 信息 的 部 分 。 记 录 头 
信息 由 固定 的 5 字 节 组 成 ， 用 于 描述 记录 的 一 些 属性 。5 字 节 也 就 是 40 个 二 进 制 位 ， 不 同 的 
位 代表 不 同 的 意思 ， 如 图 4-9 所 示 。 


info bit 





n owned 


min rec flag 


图 4-9 ”记录 头 信 息 示 意图 
这 些 二 进 制 位 代表 的 详细 信息 如 表 4-2 所 示 。 


表 4-2 记录 头 信息 中 各 二 进 制 位 代表 的 详细 信息 


名 称 大 小 (位 ) 描述 
预 留 位 1 没有 使 用 
预 留 位 2 没有 使 用 
deleted fiag 标记 该 记录 是 否 被 删除 


B+ 树 的 每 层 非 叶 子 节点 中 最 小 的 目录 项 记录 都 会 添加 该 标记 
一 个 页 面 中 的 记录 会 被 分 成 若干 个 组 ， 每 个 组 中 有 一 个 记录 是 “带头 大 


min rec flag 


n Owned 哥 ”， 其 余 的 记录 都 是 “小 弟 "。“ 带 头 大 可 ”记录 的 n_ owned 值 代 表 该 
组 中 所 有 的 记录 条 数 ,“ 小 第” 记录 的 n_ owned 值 都 为 0 
heap_no 3 表示 当前 记录 在 页 面 堆 中 的 相对 位 置 
a 表示 当前 记录 的 类 型 ，0 表示 普通 记录 ，1 表示 B+ 树 非 叶子 节点 的 目 


录 项 记录 ，2 表示 Infimum 记录 ，3 表示 Supremum 记录 
表示 下 一 条 记录 的 相对 位 置 


next record 


另外 ， 记 录 头 信息 的 前 4 个 位 也 被 称 为 info bit。 

大 家 二 万 不 要 被 这 么 多 属性 和 陌生 的 概念 吓 着 ， 这 里 把 这 些 位 代表 的 意思 都 写 出 来 只 是 为 
了 内 容 的 完整 性 。 没 必要 把 它们 的 意思 都 记 住 ， 记 住 也 没 啥 用 ， 现 在 只 需要 看 一 遍 混 个 脸 熟 ， 
等 之 后 用 到 这 些 属性 的 时 候 再 回 过 头 来 看 就 好 了 。 
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因为 我 们 并 不 清楚 这 些 属性 的 详细 用 法 ， 所 以 这 里 就 不 分 析 各 个 属性 值 是 怎么 产生 的 了 ， 
之 后 我 们 会 详细 啼 明 的 ， 少 安 性 躁 。 现 在 直接 看 一 下 record_format_demo 表 中 的 两 条 记录 的 记 
录 头 信息 分 别 是 什么 ， 如 图 4-10 所 示 。 





记录 的 真实 数据 








og og 000 0000000000900001 1 0 0 | 
图 4-10 ”两 条 记录 的 记录 头 信息 详情 


傅 : 再 一 次 强调 ， 大 家 如 果 看 不 懂 记 录 头 信息 中 各 个 位 代表 的 概念 也 千 万 别 纠结 ， 我 们 
NE 上 “后 面 会 说 的 。 
2， 记 录 的 真实 数据 


对 于 record format demo 表 来 说 ， 记 录 的 真实 数据 除了 cl、c2、c3、c4 这 几 个 我 们 自己 定义 
的 列 的 数据 外 ，MySQL 会 为 每 个 记录 默认 地 添加 一 些 列 (也 称 为 隐藏 列 )， 具 体 的 列 如 表 4-3 所 示 。 


表 4-3 ”MySQL 为 每 个 记录 默认 添加 的 列 


ma | A | oF ET 
Ra | A | 7 | 六 指针 


i 实际 上 这 几 个 列 的 真正 名 称 是 DB ROW _ID、DB TRX ID、DB ROLL PTR,， 只 
9 不 过 我 觉得 它们 不 好 看 ; 才 写 成 了 小 写 形式 ,大 家 之 后 在 阅读 文档 或 者 别 的 资料 时 意识 
小 贴 士 ”到 这 个 问题 就 好 了 。 


这 里 需要 提 一 下 InnoDB 表 的 主键 生成 策略 : 优先 使 用 用 户 自 定义 的 主键 作为 主键 ; 如 果 用 户 
没有 定义 主键 ， 则 选取 一 个 不 允许 存储 NULL 值 的 UNIQUE 键 作 为 主键 ; 如 果 表 中 连 不 允许 存储 
NULL 值 的 UNIQUE 键 都 没有 定义 ， 则 InnoDB 会 为 表 默 认 添 加 一 个 名 为 row id 的 隐藏 列 作 为 主键 。 

所 以 从 表 4-3 中 可 以 看 出 ，InnoDB 存储 引擎 会 为 每 条 记录 都 添加 trx id 和 roll pointer 这 
两 个 列 ， 但 是 row id 是 可 选 的 〈 在 没有 上 自 定 义 主 键 以 及 不 允许 存储 NULL 值 的 UNIQUE 键 的 
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情况 下 才 会 添加 该 列 )。 这 些 隐藏 列 的 值 不 用 我 们 操心 ，InnoDB 存储 引擎 会 自动 帮 有 我 们 生成 。 
因为 表 record format demo 并 没有 定义 主键 ， 所 以 MySQL 服务 器 会 为 每 条 记录 增加 上 述 
的 3 个 列 。 现 在 看 一 下 加 上 记录 的 真实 数据 的 两 条 记录 长 什么 样子 ， 如 图 4-11 所 示 。 














row_id trx_id roll pointer cl 列 的 值 c2 列 的 值 c3 列 的 值 c4 列 的 值 
row_id trx_id roll pointer cl 列 的 值 c2 列 的 值 


图 4-11 记录 真实 数据 的 两 条 记录 

看 图 4-11 时 要 注意 以 下 几 点 。 

e 表 record format demo 使 用 的 是 ascii 字符 集 ， 所 以 0x61616161 就 表示 字符 串 'aaaa'， 
0x626262 就 表示 字符 串 bbb' ; 依 此 类 推 。 

e 注意 第 一 条 记录 中 c3 列 是 CHAR(10) 类 型 的 ， 它 实际 存储 的 字符 串 是 'cc'， 使 用 ascii 
字符 集 来 编码 这 个 字符 串 得 到 的 结果 是 '0x6363'。 虽 然 表 示 这 个 字符 串 只 占用 了 2 字 
节 ， 但 整个 c3 列 仍然 占用 了 10 字 节 的 空间 ， 除 真实 数据 以 外 的 8 字 节 统统 都 用 空格 
字符 填充 ， 空 格 字符 在 ascii 字符 集中 的 编码 就 是 0x20。 

e 注意 第 二 条 记录 中 c3 和 c4 列 的 值 都 为 NULL， 它 们 被 存储 在 了 前 面 的 NULL 值 列表 处 ， 
在 记录 的 真实 数据 处 就 不 再 元 余 存 储 ， 从 而 节省 了 存储 空间 。 


3. CHAR(M) 列 的 存储 格式 


前 面 讲 到 ， 在 COMPACT 行 格式 下 ， 变 长 字段 长 度 列 表 只 是 用 来 存放 一 条 记录 中 各 个 变 长 字段 
的 值 占用 的 字 节 长 度 的 。record format demo 表 的 cl、c2、o4 列 的 类 型 是 VARCHAR(10)， 也 就 是 说 
cl、c2、c4 都 是 变 长 字段 ; 而 c3 列 的 类 型 是 CHAR(10)， 也 就 是 说 c3 列 不 属于 变 长 字段 。 所 以 会 
把 一 条 记录 的 cl、c2、c4 这 3 个 列 占用 的 字 节 长 度 逆序 存 到 变 长 字段 长 度 列表 中 ， 如 图 4-12 所 示 。 

但 这 只 是 建立 在 我 们 的 record format demo 表 采 用 的 是 ascii 字符 集 的 情况 下 ， 这 个 字符 集 
采用 固定 的 一 个 字 节 来 编码 一 个 字符 ， 是 一 个 定 长 编码 字符 集 。 如 果 采 用 变 长 编码 的 字符 集 (也 
就 是 表示 一 个 字符 需要 的 字 节 数 不 确定 ， 比 如 gbk 表示 一 个 字符 要 1 一 2 字 节 、utf8 表示 一 个 字 
符 要 1 ~ 3 字 节 等 )， 虽 然 c3 列 的 类 型 是 CHAR(10)， 但 是 设计 COMPACT 行 格 式 的 大 叔 规 定 ， 此 
时 该 列 的 值 占用 的 字 节 数 也 会 被 存储 到 变 长 字段 长 度 列 表 中 。 比 如 我 们 修改 一 下 c3 列 的 字符 集 : 


mysql> ALTER TABLE record_format_demo MODIFY COLUMN c3 CHRR (10) CHARACTER SET utf8; 

Query OK, 2 rows affected (0.02 sec) 

Records: 2 Duplicates: 0 Warnings: 0 

修改 该 列 字 符 集 后 ， 记 录 的 变 长 字段 长 度 列表 也 发 生 了 变化 ， 如 图 4-13 所 示 。 
这 就 意味 着 ， 对 于 CHAR(M) 类 型 的 列 来 说 ， 当 列 采 用 的 是 定 长 编码 的 字符 集 时 ， 该 列 占 


用 的 字 节 数 不 会 被 加 到 变 长 字段 长 度 列表 ; 而 如 果 采 用 变 长 编码 的 字符 集 时 ， 该 列 占用 的 字 节 
数 就 会 被 加 到 变 长 字段 长 度 列 表 。 
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cl 2 «4 
(修改 列 c3 的 字符 集 前 ) 
变 长 字段 长 度 列表 : 
是 ” 吉 cl "Ee 





(修改 列 c3 的 字符 集 后 ) 





人 OF OA O304 
图 4-12 变 长 字段 长 度 列表 图 4-13 ” 变 长 字段 长 度 列表 的 变化 


另外 还 有 一 点 需要 注意 ， 设 计 COMPACT 行 格式 的 大 叔 还 规定 ， 采 用 变 长 编码 字符 集 的 
CHAR(M) 类 型 的 列 要 求 至 少 占用 M 个 字 节 ， 而 VARCHAR(M) 却 没有 这 个 要 求 。 比 如 对 于 
使 用 utf8 字符 集 、 类 型 为 CHAR(10) 的 列 来 说 ， 该 列 存 储 的 数据 占用 的 字 节 长 度 的 范围 就 是 
10 一 30 字 节 。 即 使 我 们 向 该 列 中 存储 一 个 空 字符 串 也 会 占用 10 字 节 ， 这 主要 是 希望 在 将 来 
更 新 该 列 时 ， 在 新 值 的 字 节 长 度 大 于 旧 值 的 字 节 长 度 但 不 大 于 10 个 字 节 时 ， 可 以 在 该 记录 处 
直接 更 新 。 而 不 是 在 存储 空间 中 再 重新 分 配 一 个 新 的 记录 空间 ， 导 致 原 有 的 记录 空间 成 为 所 谓 
的 碎片 (大 家 应 该 在 这 里 感受 到 设计 COMPACT 行 格 式 的 大 叔 既 想 节省 存储 空间 ， 又 不 想 因 
为 更 新 CHAR(M) 类 型 的 列 而 产生 碎片 的 纠结 心情 了 吧 )。 


4.3.3 REDUNDANT 行 格式 


其 实 知道 了 COMPACT 行 格式 之 后 ， 其 他 的 行 格式 就 是 “ 依 颜 芦 画 村 ”了 。 我 们 现在 要 
介绍 的 REDUNDANT 行 格式 是 MySQL 5.0 之 前 就 在 使 用 的 一 种 行 格式 。 也 就 是 说 它 已 经 非常 
古老 了 ， 但 是 本 着 知识 完整 性 还 是 要 提 一 下 ， 大 家 看 一 下 就 好 。 

REDUNDANT 行 格 式 的 全 貌 如 图 4-14 所 示 。 


RZ - YW i Se, * 
变 长 字段 长 度 列表 : [0179039049 





图 4-14 REDUNDANT 行 格 式 示意 图 
现在 把 表 record format demo 的 行 格式 修改 为 REDUNDANT : 


mysql> ALTER TABLE record format demo ROW FORMAT=REDUNDANT; 
Query OK, 0 rows affected (0.05 sec) 
Records: 0 Duplicates: 0 Warnings: 0 


为 了 方便 大 家 理解 和 节省 篇 幅 ， 我 们 直接 把 表 record format demo 在 REDUNDANT 行 格 
式 下 的 两 条 记录 的 具体 格式 提供 出 来 ( 见 图 4-15)， 之 后 再 着 重 分 析 两 种 行 格式 的 不 同 即 可 。 

下 边 我 们 从 各 个 方面 看 一 下 REDUNDANT 行 格式 与 COMPACT 行 格 式 相 比 ， 有 什么 不 同 
的 地 方 。 


1. 字段 长 度 偏 移 列表 
注意 COMPACT 行 格式 的 开头 是 变 长 字段 长 度 列表 ， 而 REDUNDANT 行 格式 的 开头 是 字 
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段 长 度 偏 移 列 表 ， 它 与 变 长 字段 长 度 列表 相 比 有 两 处 不 同 : 


e 没有 了 “ 变 长 ”两 个 字 ， 意 味 着 REDUNDANT 行 格式 会 把 该 条 记录 中 所 有 列 ( 包 括 
隐藏 列 ) 的 长 度 信息 都 按照 逆序 存储 到 字段 长 度 偏 移 列表 ; 


e 多 了 个 “ 偏 移 ”两 个 字 ， 这 意味 着 计算 列 值 长 度 的 方式 不 像 COMPACT 行 格式 那么 直 
观 ， 它 是 采用 两 个 相 邻 偏 移 量 的 差 值 来 计算 各 个 列 值 的 长 度 。 


记录 的 额外 信息 


第 一 条 记录 的 
存 人 格式 [各 玫 





记录 的 真实 数据 








row_id trx_id roll pointer ”cl 列 的 值 c2 列 的 值 c3 列 的 值 c4 列 的 值 


第 二 条 记录 的 
存储 格式 : 





row _id trx_id roll pointer cl 列 的 值 c2 列 的 值 c3 列 的 值 
图 4-15 REDUNDANT 行 格式 下 两 条 记录 的 具体 格式 


比如 第 一 条 记录 的 字段 长 度 偏 移 列 表 就 是 : 


39, 24 i1A 47 13 .0C 06 


因为 它 是 逆序 排放 的 ， 所 以 按照 列 的 顺序 排列 就 是 : 


00 0 13 17 1A. 24 也 = 


ee he ee 

第 一 列 (row id) 的 长 度 就 是 0x06 个 字 节 ， 也 就 是 6 字 节 ; 

第 二 列 (trx id) 的 长 度 就 是 (0x0C - 0x06) 个 字 节 ， 也 就 是 6 字 节 ; 

第 三 列 (roll pointer) 的 长 度 就 是 (0x13 - 0x0C) 个 字 节 ， 也 就 是 7 字 节 ; 
第 四 列 (cl) 的 长 度 就 是 (0x17 - 0x13) 个 字 节 ， 也 就 是 4 字 节 ; 

第 五 列 (c2) 的 长 度 就 是 (0x1A - 0x17) 个 字 节 ， 也 就 是 3 字 节 ; 

第 六 列 (c3) 的 长 度 就 是 (0x24 - 0x1A) 个 字 节 ， 也 就 是 10 字 节 ; 

第 七 列 〈c4) 的 长 度 就 是 (0x25 - 0x24) 个 字 节 ， 也 就 是 1 字 节 。 


记录 头 信息 


REDUNDANT 行 格 式 的 记录 头 信息 占用 6 字 节 ， 总 计 48 个 二 进 制 位 ， 这 些 二 进 制 位 代表 
的 意思 如 表 4-4 所 示 。 


人 


表 4-4 REDUNDANT 行 格式 的 记录 头 信息 占用 的 48 个 二 进 制 位 及 其 描述 


名 称 大 小 (位 》 描述 
预 留 位 I “| ”1 | 没有 使 用 
巴 留 位 2 | ”1 | 没有 使 用 
deleted flag | | 标记 该 记录 是 否 被 删除 
min_rec fag |  _ 1 |B+ 树 的 每 层 非 叶 子 节点 中 的 最 小 的 目录 项 记录 都 会 添加 该 标记 
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续 表 
T Tr 
一 个 页 面 中 的 记录 会 被 分 成 若干 个 组 ， 每 个 组 中 有 一 个 记录 是 “带头 
n_owned 大 哥 ”， 其 余 的 记录 都 是 “小 弟 "。“ 带 头 大 哥 ” 记 录 的 n_ owned 值 代 
表 该 组 中 所 有 的 记录 条 数 ,“ 小 弟 ” 记 录 的 n_ owned 值 都 为 0 
heap no ” ”13 “| 表示 当前 记录 在 页 面 堆 中 的 相对 位 置 | 
n field ” ”10 ”| 表示 记录 中 列 的 数量 ' 


标记 字段 长 度 偏 移 列表 中 每 个 列 对 应 的 偏 移 量 是 使 用 1 字 节 还 是 2 字 
lbyte offs_flag 节 表示 的 


next record | 16 | 表示 下 一 条 记录 的 相对 位 置 
第 一 条 记录 中 的 头 信息 是 : 


00 00 10 OF 00 BC 


根据 这 6 字 节 可 以 计算 出 各 个 属性 的 值 ， 如 下 : 


预 留 位 1: 0x00 
预 留 位 2: 0x00 
deleted flag: 0x00 二 
min rec flag: 0x00 : 
n_owned: Ox00 
heap_no: 0x02 

n field: 0x07 

lbyte offs flag: 0x01 
next record:0xBC 


与 COMPACT 行 格 式 的 记录 头 信息 对 比 来 看 ， 有 两 处 不 同 : 

e REDUNDANT 行 格式 多 了 n field 和 lbyte offs fag 这 两 个 属性 ; 

e REDUNDANT 行 格式 没有 record type 这 个 属性 。 
3. 记录 头 信息 中 的 1byte_offs_flag 的 值 是 怎么 选择 的 | 
从 本 质 上 来 说 ， 字 上段 长 度 偏 移 列表 存储 的 偏 移 量 指 的 是 每 个 列 的 值 占用 的 空间 在 记录 的 真 | 


_ Uh i 


实数 据 处 结束 的 位 置 。 这 句 话 有 点 儿 撩 口 ， 我 们 还 是 拿 record format demo 第 一 条 记录 为 例 来 
分 析 一 下 。0x06 代表 第 一 个 列 在 记录 的 真实 数据 第 6 字 节 处 结束 ，0x0C 代表 第 二 个 列 在 记录 
的 真实 数据 第 12 字 节 处 结束 ，0x13 代表 第 三 个 列 在 记录 的 真实 数据 第 19 字 节 处 结束 …… 最 
后 一 个 列 对 应 的 偏 移 量 值 为 0x25， 也 就 意味 着 最 后 一 个 列 在 记录 的 真实 数据 第 37 字 节 处 结束 ， 
也 就 意味 着 整 条 记录 的 真实 数据 实际 上 占用 37 字 节 。 

在 字段 长 度 偏 移 列 表 中 ， 每 个 列 对 应 的 偏 移 量 可 以 使 用 1 字 节 或 者 2 字 节 来 存储 ， 那 到 底 
什么 时 候 使 用 1 字 节 、 什 么 时 候 用 2 字 节 呢 ? 这 是 根据 该 条 REDUNDANT 行 格式 记录 的 真实 
数据 占用 的 总 大 小 来 判断 的 。 

@ 当 记 录 的 真实 数据 占用 的 字 节 数 不 大 于 127 (十 六 进 制 0x7F， 二 进 制 01111111 ) 时 ， 

每 个 列 对 应 的 偏 移 量 占用 1 字 节 。 


并 如果 名 个 记录 的 和 实 煞 据 占用 的 在 信 空 间 都 不 大 于 127 字 芝 ， 那么 和 个 下 对 应 的 人 
小 由 十 | 移 量 值 表 定 也 就 不 大 于 127， 也 就 可 以 使 用 工 字 节 术 玫 不偏 移 是: 生 
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e 当 记 录 的 真实 数据 占用 的 字 节 数 大 于 127， 但 不 大 于 32767 (十 六 进 制 0x7FFF， 二 进 
制 0111111111111111) 时 ， 每 个 列 对 应 的 偏 移 量 占用 2 字 节 。 
e 有 没有 记录 的 真实 数据 大 于 32767 的 情况 呢 ? 有 ， 不 过 此 时 记录 的 一 部 分 已 经 存放 到 
了 所 谓 的 洲 出 页 中 后面 我 们 会 详细 讨论 )， 在 本 页 中 只 保留 前 768 字 节 和 20 字 节 的 
洲 出 页 面 地 址 (当然 这 20 字 节 中 还 记录 了 一 些 别 的 信息 )。 在 这 种 情况 下 只 使 用 2 字 
节 来 存储 每 个 列 对 应 的 偏 移 量 就 够 了 。 
大 家 可 以 看 出 来 ， 设 计 REDUNDANT 行 格式 的 大 叔 采 用 的 策略 还 是 比较 简单 粗暴 的 : 直 
接 使 用 整个 记录 的 真实 数据 占用 的 字 节 长 度 来 决定 使 用 1 字 节 还 是 2 字 节 存 储 列 对 应 的 偏 移 量 。 
只 要 整 条 记录 的 真实 数据 占用 的 存储 空间 长 度 大 于 127 字 节 ， 即 使 某 个 列 的 值 占 用 的 存储 空间 


不 大 于 127 字 节 ， 那 对 不 起 ， 也 需要 使 用 2 字 节 来 表示 该 列 对 应 的 偏 移 量 。 简 单 粗暴 ， 就 是 这 
么 简单 粗暴 《所 以 这 种 行 格式 有 些 过 时 了 )。 


i 不 知 大 家 是 否 有 和 疑问， 既然 一 个 字 节 表示 的 范围 是 0 一 255， 为 哈 在 记录 的 真实 数 
: 侈 :。“ 拓 占用 的 存储 空间 大 于 12] 字 节 时 就 采用 2 字 节 表示 各 个 列 的 偏 移 量 ， 而 不 是 大 于 255 


小 贴 十 字 节 时 再 采用 2 字 节 表示 各 个 列 的 偏 移 量 呢 ? 少 安 隶 踩 ， 后 耐劳 中 NULL 值 处 理 的 时 候 
会 解决 这 个 疑惑 。 


为 了 在 解析 记录 时 知道 每 个 列 的 偏 移 量 是 使 用 1 字 节 还 是 2 字 节 表示 的 ， 设 计 REDUNDANT 
行 格式 的 大 叔 特意 在 记录 头 信息 中 放置 了 一 个 称 为 lbyte_offs flag 的 属性 : 

e@ 当 它 的 值 为 1 时 ， 表 明 使 用 1 字 节 存储 偏 移 量 。 

e@ 当 它 的 值 为 0 时， 表明 使 用 2 字 节 存储 偏 移 量 。 

4. REDUNDANT 行 格式 中 NULL 值 的 处 理 

因为 REDUNDANT 行 格式 并 没有 NULL 值 列 表 ， 所 以 设计 REDUNDANT 行 格式 的 大 叔 
在 字段 长 度 偏 移 列 表 中 对 各 列 对 应 的 偏 移 量 处 做 了 一 些 特殊 处 理 一 一 将 列 对 应 的 偏 移 量 值 的 第 


一 个 比特 位 作为 是 否 为 NULL 的 依据 ， 该 比特 位 也 可 以 称 之 为 NULL 比特 位 。 也 就 是 说 在 解 


析 一 条 记录 的 某 个 列 时 ， 首 先 看 一 下 该 列 对 应 的 偏 移 量 的 NULL 比特 位 是 否 为 1。 如果 为 1， 
那么 该 列 的 值 就 是 NULL， 和 否则 就 不 是 NULL。 


这 也 就 解释 了 前 文 提 到 的 “为 什么 只 要 记录 的 真实 数据 大 于 127 〈 十 六 进 制 0x7F， 二 进 制 
01111111) 时 ， 就 采用 2 字 节 来 表示 一 个 列 对 应 的 偏 移 量 ”。 原 因 就 是 第 一 个 比特 位 是 所 谓 的 
NULL 比特 位 ， 用 来 标记 该 列 的 值 是 否 为 NULL 。 


但 是 还 有 一 点 需要 注意 ， 对 于 值 为 NULL 的 列 来 说 ， 该 列 的 类 型 是 否 为 变 长 类 型 决定 了 
该 列 在 记录 的 真实 数据 处 的 存储 方式 。 我 们 接 下 来 分 析 record_format_demo 表 的 第 二 条 记录 ， 
它 对 应 的 字段 长 度 偏 移 列 表 如 下 : 


A4 A4 1A 17 13 OC 06 


按照 列 的 顺序 排放 就 是 : 
06 C 13 17 1A A4 A4 


我 们 分 情况 看 一 下 。 


i 
i 
wa 
i 


eS——— 
ee 
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e 如 果 存 储 NULL 值 的 字段 是 定 长 类 型 的 ， 比 如 是 CHAR(M) 数据 类 型 的 ， 则 NULL 值 
也 将 占用 记录 的 真实 数据 部 分 ， 并 把 该 字段 对 应 的 数据 使 用 0x00 字 节 填充 。 

在 图 415 所 示 的 第 二 条 记录 中 ，c3 列 的 值 是 NULL， 而 c3 列 的 类 型 是 CHAR(10)， 在 记录 的 真 
实数 据 部 分 占用 了 10 字 节 ， 所 以 我 们 看 到 在 REDUNDANT 行 格式 中 使 用 0x00000000000000000000 
来 表示 NULL 值 。 

另外 ，c3 列 对 应 的 偏 移 量 为 0xA4， 对 应 的 二 进 制 为 10100100， 可 以 看 到 最 高 位 为 1， 意 味 着 
该 列 的 值 是 NULL。 将 最 高 位 去 掉 后 的 值 变 成 了 0100100， 对 应 的 十 进 制 值 为 36， 而 c2 列 对 应 的 
偏 移 量 为 0x1A， 也 就 是 十 进 制 的 26。36-26=10， 也 就 是 说 最 终 c3 列 占 用 的 存储 空间 为 10 字 节 。 

e 如 果 存 储 NULL 值 的 字段 是 变 长 数据 类 型 的 ， 则 不 在 记录 的 真实 数据 部 分 占用 任何 存 

储 空间 。 

比如 record format demo 表 的 c4 列 是 VARCHAR(10) 类 型 的 ，VARCHAR(10) 是 一 个 变 长 
数据 类 型 。c4 列 对 应 的 偏 移 量 为 0xA4， 与 c3 列 对 应 的 偏 移 量 相同 。 这 也 就 意味 着 它 的 值 也 
为 NULL， 将 0xA4 的 最 高 位 去 掉 后 对 应 的 十 进 制 值 也 是 36。36 一 36 = 0， 也 就 意味 着 c4 列 
本 身 不 占用 记录 的 真实 数据 处 的 空间 。 

除了 上 面 几 点 之 外 ，REDUNDANT 行 格式 和 COMPACT 行 格式 大 致 相同 ， 但 是 能 明显 感 
觉 到 使 用 COMPACT 行 格式 的 记录 占用 的 空间 更 少 一 点 ， 所 以 显得 更 紧 竣 ， 这 样 就 可 以 在 一 
个 页 面 中 存放 尽 可 能 多 的 记录 。 


5. CHAR(M) 列 的 存储 格式 

我 们 知道 ， 在 使 用 COMPACT 行 格 式 时 ，CHAR(M) 类 型 的 列 所 使 用 的 字符 集 不 同 (具体 
分 为 定 长 编码 的 字符 集 和 变 长 编码 的 字符 集 )， 该 列 的 真实 数据 的 具体 存储 方案 也 不 同 。 

而 REDUNDANT 行 格式 则 十 分 和 干脆， 不管 该 列 使 用 的 字符 集 是 啥 ， 只 要 使 用 CHAR(M) 
类 型 ， 该 列 的 真实 数据 占用 的 存储 空间 大 小 就 是 该 字符 集 表示 一 个 字符 最 多 需要 的 字 节 数 和 
M 的 乘积 。 比 如 ， 使 用 utf8 字符 集 的 CHAR(10) 类 型 的 列 ， 其 真实 数据 占用 的 存储 空间 大 小 
始终 为 30 字 节 ; 使 用 gbk 字符 集 的 CHAR(10) 类 型 的 列 ， 其 真实 数据 占用 的 存储 空间 大 小 始 
终 为 20 字 节 。 这 样 的 话 ， 将 来 在 对 该 列 进行 更 新 时 ， 可 以 直接 在 原 位 置 更 新 ， 而 不 需要 为 记 
录 申 请 新 的 存储 空间 。 当 然 ， 这 样 的 坏处 就 是 可 能 会 浪费 一 些 存储 空间 。 


4.3.4 溢出 列 


1. 溢出 列 
我 们 以 使 用 ascii 字符 集 的 off page_demo 表 为 例 ， 向 该 表 中 插入 一 条 记录 : 


mysql> CREATE TABLE off page demo ( 

-> c VARCHAR (65532) 

-> ) CHARSET=ascii ROW FORMAT=COMPACT; 
Query OK, 0 rows affected (0.01 sec) 


mysql> INSERT INTO off page _ demo (c¢) VALUES (REPEAT('a', 65532)); 
Query OK, 1 row affected (0.00 sec) 


其 中 REPEAT(a', 65532) 是 一 个 函数 调用 ， 它 表示 生成 一 个 把 字符 'a 重复 65532 次 的 字符 串 。 


人 EE 
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由 于 使 用 的 是 ascii 字符 集 ， 所 以 这 个 字符 串 实际 占用 的 字 节 数 就 是 65532。 前 文 说 过 ，InnoDB 中 
磁 援 和 内 存 交 互 的 基本 单位 是 页 ， 也 就 是 说 InnoDB 是 以 页 为 基本 单位 来 管理 存储 空间 的 ， 我 们 的 
记录 都 会 被 分 配 到 某 个 页 中 存储 。 而 一 个 页 的 大 小 一 般 是 16KB， 也 就 是 16384 字 节 ， 而 本 例 中 一 
个 列 的 实际 数据 就 需要 占用 65532 字 节 ， 很 显然 一 个 页 也 存 不 了 一 条 记录 ， 这 不 是 贼 尴 控 么 。 

在 COMPACT 和 REDUNDANT 行 格式 中 ， 对 于 占用 存储 空间 非常 多 的 列 ， 在 记录 的 真实 
数据 处 只 会 存储 该 列 的 一 部 分 数据 ， 而 把 剩余 的 数据 分 散 存 储 在 几 个 其 他 的 页 中 ， 然 后 在 记录 
的 真实 数据 处 用 20 字 节 存储 指向 这 些 页 的 地 址 (当然 ， 这 20 字 节 还 包括 分 散在 其 他 页 面 中 的 | 
数据 所 占用 的 字 节 数 ) ， 从 而 可 以 找到 剩余 数据 所 在 的 页 ， 如 图 4-16 所 示 。 


这 个 是 存放 记录 的 页 









图 4-16” 当 列 占用 的 存储 空间 相当 大 时 ，COMPACT 行 格式 的 存储 方式 


从 图 4-16 中 可 以 看 出 ， 对 于 COMPACT 和 REDUNDANT 行 格式 来 说 ， 如 果 某 一 列 中 的 
数据 非常 多 ， 则 在 本 记录 的 真实 数据 处 只 会 存储 该 列 前 768 字 节 的 数据 以 及 一 个 指向 其 他 页 的 


地 址 ， 然 后 把 剩 下 的 数据 存放 到 其 他 页 中 。 这 些 存储 768 字 节 之 外 的 数据 的 页 面 也 称 为 洲 出 页 。 
图 4-17 是 图 4-16 的 简化 示意 图 。 


存储 该 字段 剩余 数据 的 溢出 页 


图 4-17 图 4-16 的 简化 示意 图 
off page_demo 表 的 这 条 记录 的 列 c 的 数据 需要 使 用 滋 出 页 来 存储 ， 那 么 我 们 就 把 这 个 列 
称 为 游 出 列 ( 其 实 设 计 InnoDB 的 大 叔 把 该 列 称 之 为 off-page 列 )。 最 后 需要 注意 的 是 ， 不 只 
是 VARCHAR(M) 类 型 的 列 可 能 成 为 滋 出 列 ， 像 TEXT、BLOB 这 些 类 型 的 列 在 存储 的 数据 相 
当 多 的 时 候 也 会 成 为 溢出 列 。 


一 一 
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2. 产生 溢出 页 的 临界 点 
一 个 列 在 存储 了 多 少 字 节 之 后 会 变 为 浇 出 列 呢 ? 
MySQL 中 规定 一 个 页 中 至 少 存放 两 行 记录 。 至 于 为 什么 这 么 规定 后 面 再 说 ， 现 在 看 一 下 
这 个 规定 造成 的 影响 。 以 上 面 的 off page_demo 表 为 例 ， 它 只 有 一 个 列 ce。 我 们 往 这 个 表 中 插 
入 两 条 记录 ， 每 条 记录 最 少 包含 多 少 字 节 的 数据 才 会 需要 溢出 页 昵 ? 这 得 分 析 一 下 页 中 的 空间 
都 是 如 何 利用 的 。 
e 每 个 页 除了 存放 我 们 的 记录 以 外 ， 也 需要 存储 一 些 额外 的 信息 。 这 些 乱 七 八 糟 的 额外 
信息 加 起 来 需要 132 字 节 的 空间 (现在 只 要 知道 这 个 数字 就 好 了 ， 下 一 章 可 以 精确 计 
算 )， 其 他 的 空间 都 可 以 被 用 来 存储 记录 。 
e 每 个 记录 需要 的 额外 信息 是 27 字 节 。 这 27 字 节 包括 下 面 这 些 内 容 : 
em 2 字 节 用 于 存储 真实 数据 的 长 度 ; 
1 字 节 用 于 存储 列 是 否 是 NULL 值 ; 
5 字 节 大 小 的 头 信息 ; 
6 字 节 的 row id 列 ; 
6 字 节 的 trx id 列 ; 
@ 7 字 节 的 roll pointer 列 。 
假设 一 个 列 的 真实 数据 占用 的 字 节 数 为 n， 设 计 MySQL 的 大 叔 规定 ， 如 果 该 列 不 发 生 滥 
出 现象 ， 就 需要 满足 下 面 这 个 不 等 式 : 


132 + 2x(27 + n) < 16384 


有 读者 可 能 会 有 疑问 ， 为 哈 上 面 的 这 个 不 等 式 不 是 132 + 2x(27+n) < 16384 呢 ? 

; 僵 :。 翅 能 说 设计 MysQL 的 大 权 就 是 这 么 规定 的 。 另外， 存放 正常 记录 的 页 面 和 溢出 页 是 

小 贴 十 ”更 种 不 同类 型 的 页 面 ( 下 一 章 会 介绍 页 面 类 型 )- 对 于 溢出 页 来 说 二 并 没有 规定 一 个 页 
面 中 最 少 存放 两 条 记录 . 


通过 求解 这 个 不 等 式 ， 得 出 的 解 是 n < 8099。 也 就 是 说 ， 如 果 一 个 列 中 存储 的 数据 小 于 
8099 字 节 ， 那 么 该 列 就 不 会 成 为 溢出 列 ， 否 则 就 会 成 为 滋 出 列 。 不 过 ， 这 个 8099 字 节 的 限制 
只 是 针对 只 有 一 个 列 的 off page_demo 表 来 说 的 。 如 果 表 中 有 多 个 列 ， 则 上 面 的 不 等 式 和 结论 
就 需要 改 一 改 了 ， 所 以 重点 就 是 : 我 们 不 用 关注 这 个 临界 点 是 什么 ， 只 要 知道 如 果 一 条 记录 的 
某 个 列 中 存储 的 数据 占用 的 字 节 数 非常 多 时 ， 该 列 就 可 能 成 为 溢出 列 。 


4.3.5 DYNAMIC 行 格式 和 COMPRESSED 行 格式 


下 面 来 看 另外 两 个 行 格式 : DYNAMIC 行 格 式 和 COMPRESSED 行 格式 。 我 现在 使 用 的 
MySQL 版 本 是 57， 它 的 默认 行 格式 就 是 DYNAMIC。 这 两 个 行 格式 与 COMPACT 行 格 式 挺 像 ， 
只 不 过 在 处 理 溢出 列 的 数据 时 有 点 儿 分 歧 : 它们 不 会 在 记录 的 真实 数据 处 存储 该 滋 出 列 真实 数据 
的 前 768 字 节 ， 而 是 把 该 列 的 所 有 真实 数据 都 存储 到 滋 出 页 中 ， 只 在 记录 的 真实 数据 处 存储 20 字 
节 大 小 的 指向 溢出 页 的 地 址 〈 当 然 ， 这 20 字 节 还 包括 真实 数据 占用 的 字 节 数 )， 如 图 4-18 所 示 。 

COMPRESSED 行 格式 不 同 于 DYNAMIC 行 格式 的 一 点 是 ，COMPRESSED 行 格式 会 采用 


和 








压 纵 算法 对 页 面 进行 压缩 ， 以 节省 空间 。 这 里 就 不 多 吐 嘱 了 。 


记录 : 





存储 该 字段 数据 的 溢出 页 


图 4-18 DYNAMIC 行 格 式 和 COMPRESSED 行 格式 的 溢出 页 


2: REDUNDANT 是 一 种 比较 原始 的 行 格 式 ， 它 是 非 紧 凑 的 .而 COMPACT. DYNAMIC 
小 以 及 COMPRESSED 行 格 式 是 较 新 的 行 格式 ， 它 们 是 紧凑 的 〔 占 用 的 存储 空间 更 少 洲 


4.4 总 续 


页 是 InnoDB 中 磁盘 和 内 存 交 互 的 基本 单位 ， 也 是 InnoDB 管理 存储 空间 的 基本 单位 ， 默 
认 大 小 为 16KB。 
指定 和 修改 行 格式 的 语法 如 下 : 


CREATE TABLE 表 名 ( 列 的 信息 ) ROW_FORMAT= 行 格式 名 称 ; 
ALTER TABLE 表 名 ROW _FORMAT= 行 格式 名 称 ; 


InnoDB 目前 定义 了 4 种 行 格式 。 
@ COMPACT 行 格 式 ， 如 图 4-19 所 示 。 





图 4-19 ” COMPACT 行 格式 示意 图 


e@e REDUNDANT 行 格式 ， 如 图 4-20 所 示 。 


记录 的 额外 信息 





几 2 的 植 
图 4-20 REDUNDANT 行 格式 示意 图 


e DYNAMIC 和 COMPRESSED 行 格式 。 
这 两 种 行 格式 类 似 于 COMPACT 行 格 式 ， 只 不 过 在 处 理 滋 出 列 数 据 时 有 点 儿 分 歧 : 它们 
不 会 在 记录 的 真实 数据 处 存储 列 真 实数 据 的 前 768 字 节 ， 而 是 把 所 有 的 数据 都 存储 到 所 谓 的 滋 


出 页 中 ， 只 在 记录 的 真实 数据 处 存储 指向 这 些 滋 出 页 的 地 址 。 另 外 ，COMPRESSED 行 格式 会 
采用 压缩 算法 对 页 面 进行 压缩 。 








| 


和 有 有] Wp2 < 六 的 大 盒 上 =) Ds 所 页 结构 





5.1 不 同类 型 的 页 简介 


前 面 章节 简单 介绍 了 页 的 概念 。 页 是 InnoDB 管理 存储 空间 的 基本 单位 ， 一 个 页 的 大 小 一 
般 是 16KB。InnoDB 为 了 不 同 的 目的 而 设计 了 多 种 不 同类 型 的 页 ， 比 如 存放 表 空 间 头 部 信息 
的 页 、 存 放 Change Buffer 信息 的 页 、 存 放 INODE 信息 的 页 、 存 放 undo 日 志 信 息 的 页 ; 等 等 
等 等 。 当 然 ， 如 果 我 说 的 这 些 名 词 你 一 个 都 没有 听 过 ， 也 没有 关系 。 我 们 今天 也 不 准备 说 这 些 
类 型 的 页 ， 我 们 关心 的 是 那些 存放 表 中 记录 的 那 种 类 型 的 页 ， 官 方 称 这 种 存放 记录 的 页 为 索引 
(INDEX) 页 。 鉴 于 我 们 还 没有 介绍 过 索引 是 什么 ， 而 这 些 表 中 的 记录 就 是 我 们 日 党 所 称 的 数 
据 ， 所 以 目前 还 是 将 这 种 存放 记录 的 页 称 为 数据 页 吧 。 





~ 


D- 别 的 数据 库 图 书 可 能 不 把 存放 记录 的 页 面 称 之 为 数据 页 ;, 这 里 是 为 了 表述 方便 才 这 
么 说 的 ， 大 家 在 阅读 其 他 图 书 的 时 候 需要 注意 一 下 . 


小 贴 十 
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数据 页 代表 的 这 块 16KB 大 小 的 存储 空间 可 以 划分 为 多 个 部 分 ， 不 同 部 分 有 不 同 的 功能 
如 图 5-1 所 示 。 


这 些 是 记录 
总 共 是 16KB 


Pape Dmrectory 


0 File drailer : 
图 5-1 InnoDB 数据 页 结构 示意 图 





从 图 5-1 可 以 看 出 ， 一 个 InnoDB 数据 页 的 存储 空间 大 致 被 划分 成 7 个 部 分 ， 有 的 部 分 占 





参 - 一 让 一 


生生 一 。- 
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用 的 字 节 数 是 确定 的 ， 有 的 部 分 占用 的 字 节 数 是 不 确定 的 。 下 面 我 们 通过 表 5-1 大 致 描述 一 下 
这 7 个 部 分 都 存储 一 些 什么 内 容 (快速 地 罗 一 眼 就 行 了 ， 后 面 会 详细 踪 归 的 )。 


表 5-1 InnoDB 数据 页 结构 


File Header 页 的 一 些 通用 信息 
Page Header 数据 页 专 有 的 一 些 信 息 
a 人 
User Records 用 户 存储 的 记录 内 容 
Free Space 页 中 尚未 使 用 的 空间 


Page Directory 不 确定 页 中 某 些 记录 的 相对 位 置 
区 | 入 再 守 

~ 我 们 接 下 来 并 不 打算 校 照 页 中 各 个 部 分 的 出 现 顺序 来 依次 介绍 它 们 5 因为 按照 顺序 介绍 

9: 的 话 会 把 大 量 陌生 的 概念 一 股 脑 儿 地 呈现 在 大 家 面前 ， 严重 打击 7 位 的 信心 与 兴趣 。 现在 还 ， 


小 贴 士 。 是 希望 大 家 的 学 习 曲 线 能 够 平缓 一 点 儿 ， 由 浅 入 深 一 点 儿 ， 项 望 大 家 能 接受 这 种 写作 手法 。 
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在 页 的 7 个 组 成 部 分 中 ， 我 们 自己 存储 的 记录 会 按照 指定 的 行 格式 存储 到 User Records 部 分 。 
但 是 在 一 开始 生成 页 的 时 候 ， 其 实 并 没有 User Records 部 分 ， 每 当 插入 一 条 记录 时 ， 都 会 从 Free 
Space 部 分 〈 也 就 是 尚未 使 用 的 存储 空间 ) 申请 一 个 记录 大 小 的 空间 ， 并 将 这 个 空间 划分 到 User 
Records 部 分 。 当 Free Space 部 分 的 空间 全 部 被 User Records 部 分 替代 掉 之 后 ， 也 就 意味 着 这 个 页 使 
用 完了 ， 此 时 如 果 还 有 新 的 记录 插入 ， 就 需要 去 申请 新 的 页 了。 这 个 过 程 如 图 5-2 所 示 。 





图 5-2 记录 在 页 中 的 存储 


为 了 更 好 地 管理 User Records 中 的 这 些 记 录 ， 设 计 InnoDB 的 大 叔 可 费 了 一 番 力 气 。 他 们 
将 力气 费 在 哪里 了 呢 ? 不 就 是 把 记录 按照 指定 的 行 格式 一 条 一 条 摆 在 User Records 部 分 么 ? 其 
实 这 么 说 也 没 喻 问题， 但 是 “魔鬼 藏 在 细节 中 ”， 我 们 还 得 从 记录 行 格式 的 记录 头 信息 说 起 。 
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5.3.1 ”记录 头 信 息 的 秘密 
为 了 故事 的 顺利 发 展 ， 我 们 先 创建 一 个 表 : 


mysql> CREATE TABLE page_demo | 


-> cl INT, 

-> c2 INT, 

-> c3 VARCHAR (10000), 
-> PRIMARY KEY (cl) 


-> ) CHARSET=ascii ROW FORMAT=COMPACT; 
Query OK, 0 rows affected (0.03 sec) 


这 个 新 创建 的 page demo 表 有 3 列 ， 其 中 cl 和 c2 列 用 来 存储 整数 ，c3 列 用 来 存储 字符 串 。 
需要 注意 的 是 ， 我 们 把 cl 列 指定 为 主键 ， 所 以 InnoDB 就 没 必要 创建 那个 所 谓 的 row_id 隐藏 
列 了 。 而 且 我 们 为 这 个 表 指 定 了 ascii 字符 集 以 及 COMPACT 的 行 格式 ， 所 以 这 个 表 中 记录 的 
行 格式 示意 图 如 图 5-3 所 示 。 


记录 的 真实 数据 








5-3” ”COMPACT 行 格式 示意 图 
从 图 5-3 可 以 看 到 ， 我 们 特意 把 记录 头 信息 的 5$ 字 节 的 数据 给 标 出 来 了 ， 说 明 它 很 重要 。 
我 们 再 次 浏览 一 下 这 些 记 录 头 信息 中 各 个 属性 的 大 体 意思 (目前 使 用 COMPACT 行 格式 进行 
演示 ) ， 如 表 5-2 所 示 。 


表 5-2 ”记录 头 信息 的 属性 及 描述 


名 称 大 小 (比特 ) 描述 
预 留 位 1 | 《1 | 没有 使 用 
预 留 位 2 没有 使 用 
deleted flag 标记 该 记录 是 否 被 删除 


B+ 树 中 每 层 非 叶 子 节点 中 的 最 小 的 目录 项 记录 都 会 添加 该 标记 


腕 中 一 个 页 面 中 的 记录 会 被 分 成 若干 个 组 ， 每 个 组 中 有 一 个 记录 是 “ 带 


min Tec flag 


头 大 哥 "”， 其 余 的 记录 都 是 “小 弟 " “带头 大 哥 ” 记 录 的 n_ owned 
值 代表 该 组 中 所 有 的 记录 条 数 ,“ 小 第” 记录 的 n_owned 值 都 为 0 


n owned 
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续 表 


heap_no 表示 当前 记录 在 页 面 堆 中 的 相对 位 置 
3 


He 表示 当前 记录 的 类 型 ，0 表示 普通 记录 ，1 表示 B+ 树 非 叶 节点 的 目 
于 录 项 记录 ，2 表示 Infimum 记录 ，3 表示 Supremum 记录 


next record | 16 | 表示 下 一 条 记录 的 相对 位 置 


由 于 我 们 现在 主要 在 啼 九 记录 头 信息 的 作用 ， 所 以 为 了 方便 大 家 理解 ， 我 们 只 在 page_ 
demo 表 的 行 格式 演示 图 中 〈 见 图 5-4)〉 画 出 有 关 的 头 信息 属性 以 及 cl、c2、c3 列 的 信息 (其 
他 信息 没 画 不 代表 它们 不 存在 ， 只 是 为 了 理解 上 的 方便 而 在 图 中 省 略 了 )。 





5-4 page_demo 表 的 行 格 式 简化 图 | 
下 面试 着 向 page_demo 表 中 插入 几 条 记录 : 


mysql> INSERT INTO page_demo VALUES(1, 100, 'aaaa'), (2, 200, 'bbbb"), (3 300, "S66€e6"), 
(4，400，“'dddda' ); 

Query OK, 4 rows affected (0.00 sec) 

Records: 4 Duplicates: 0 Warnings: 0 


为 了 方便 大 家 分 析 这 些 记 录 在 页 的 User Records 部 分 是 怎么 表示 的 ， 这 里 把 记录 中 的 头 信息 
和 实际 的 列 数据 都 用 十 进 制 表示 出 来 了 (其 实 是 一 堆 二 进 制 位 )。 这 些 记 录 的 示意 图 如 图 5-5 所 示 。 

在 查看 图 5-5 时 需要 注意 一 下 ， 各 条 记录 在 User Records 中 存储 的 时 候 并 没有 空 队 ， 这 里 
只 是 为 了 方便 大 家 观看 才 把 每 条 记录 单独 画 在 一 行 中 。 我 们 现在 对 照 着 图 5-5 来 看 看 记录 头 信 
息 中 的 各 个 属性 是 什么 意思 .。 


Ai Brg ie pe Hg omed eg pe ed pe et ed 


» = a 台 汪 ey We 三 "中 
| | 蔡 生 忆 人 





图 $-5 记录 在 页 的 User Records 部 分 的 存储 结构 


e deleted fag : 这 个 属性 用 来 标记 当前 记录 是 否 被 删除 ， 占 用 1 比特 。 值 为 0 时 表示 记 
EE 
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录 没有 被 删除 ， 值 为 1 时 表示 记录 被 删除 了 。 

哈 ? 被 删除 的 记录 还 在 页 中 么 ? 是 的 ， 摆 在 台面 上 的 和 背地 里 做 的 可 能 大 相 径 寿 。 
你 以 为 记录 被 删除 了 ， 可 它 还 在 真实 的 磁盘 上 。 这 些 被 删除 的 记录 之 所 以 不 从 磁盘 
上 移 除 ， 是 因为 在 移 除 它们 之 后 ， 还 需要 在 磁盘 上 重新 排列 其 他 的 记录 ， 这 会 带 来 
性 能 消耗 ， 所 以 只 打 一 个 删除 标记 就 可 以 避免 这 个 问题 。 所 有 被 删除 掉 的 记录 会 组 
成 一 个 垃圾 链表 ， 记 录 在 这 个 链表 中 占用 的 空间 称 为 可 重用 空间 (关于 链表 是 怎么 
形成 的 ， 在 介绍 过 next record 属性 后 大 家 就 知道 了 )。 之 后 若 有 新 记录 插入 到 表 中 ， 
它们 就 可 能 覆盖 掉 被 删除 的 这 些 记录 占用 的 存储 空间 。 


疹 : 将 deleted flag 属性 设置 为 1 和 将 被 删除 的 记录 加 入 到 垃圾 链表 中 其 实 是 两 个 阶段 ， 
、 ”后面 在 介绍 undo 日 志 时 会 详细 嘴 四 删除 操作 的 详细 执行 过 程 ， 现 在 少 安 组 踩 - 


e min rec flag : B+ 树 每 层 非 叶子 节点 中 的 最 小 的 目录 项 记录 都 会 添加 该 标记 。 什 么 是 
B+ 树 ? 什么 是 非 叶 子 节点 ? 什么 是 目录 项 记录 ? 好 吧 ， 等 第 6 章 介绍 索引 的 时 候 再 聊 
这 些 话题 。 我 们 现在 只 需要 知道 自己 插入 的 4 条 记录 的 min rec flag 值 都 是 0， 意味 着 
它们 都 不 是 B+ 树 非 叶子 节点 中 的 最 小 的 目录 项 记录 。 

e@ Dn_ owned : 这 个 暂时 保密 ， 稍 后 它 是 主角 。 

e heap no : 我 们 向 表 中 插入 的 记录 从 本 质 上 来 说 都 是 放 到 数据 页 的 User Records 部 分 ， 这 
些 记录 一 条 一 条 地 亲密 无 间 地 排列 着 ， 如 图 5-6 所 示 〈 这 不 是 page_ demo 表 中 的 记录 ， 
只 是 一 个 通用 的 示意 图 )。 





图 5-6 ”记录 在 数据 页 的 User Records 中 的 排放 方式 


设计 InnoDB 的 大 叔 把 记录 一 条 一 条 亲密 无 间 排 列 的 结构 称 之 为 堆 (heap)。 为 了 方便 管理 
这 个 堆 ， 他 们 把 一 条 记录 (这 条 记录 的 deleted fag 可 以 为 1) 在 堆 中 的 相对 位 置 称 之 为 heap 
no。 在 页 面前 边 的 记录 heap no 相对 较 小 ， 在 页 面 后 边 的 记录 heap_no 相对 较 大 ， 每 新 申请 一 
条 记录 的 存储 空间 时 ， 该 条 记录 比 物 理 位 置 在 它 前 边 的 那 条 记录 的 heap_no 值 大 1。 从 图 5-5 
所 示 的 page demo 表 的 各 条 记录 示意 图 中 可 以 看 出 ， 我 们 插入 的 4 条 记录 的 heap_no 属性 值 分 
别 是 2、3、4、5。 是 不 是 少 了 点 啥 ? 是 的 ， 怎 么 不 见 heap_no 值 为 0 和 1 的 记录 呢 ? 

这 其 实 是 设计 InnoDB 的 大 叔 玩 的 一 个 小 把 戏 ， 他 们 目 动 给 每 个 页 里 面 加 了 两 条 记录 ， 由 
于 这 两 条 记录 并 不 是 用 户 自 己 插入 的 ， 所 以 有 时 候 也 称 为 伪 记 录 或 者 虚拟 记录 。 在 这 两 条 伪 记 
录 中 ， 一 条 代表 页 面 中 的 最 小 记录 (也 可 以 写作 Infimum 记录 )， 另 外 一 条 代表 页 面 中 的 最 大 
记录 (也 可 以 写作 Supremum 记录 )。 这 两 条 伪 记 录 也 算 作 摊 的 一 部 分 〈 很 显然 这 两 条 伪 记 录 
的 heap no 值 最 小 ， 说 明 它 们 在 页 面 中 的 相对 位 置 最 靠 前 )。 

等 一 下 ， 记 录 可 以 比 大 小 么 ? 
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是 的 ， 记 录 也 可 以 比 大 小 。 对 于 一 条 完整 的 记录 来 说 ， 比 较 记 录 的 大 小 就 是 比较 主键 的 大 
小 。 比 如 ， 我 们 插入 的 4 条 记录 的 主键 值 分 别 是 1、2、3、4， 这 也 就 意味 着 这 4 条 记录 从 小 
到 大 依次 递增 。 


;合计 注意 ， 前 文 强调 的 是 对 于 “一 条 完整 的 记录 ”来 说 ， 比较 记录 的 天 小 相当 于 比 的 
小 贴 上 。 是 主键 的 大 小 。 下 一 章 还 会 介绍 只 在 储 一 条 记录 的 部 分 列 的 情况 ， 吾 请 期 待 ， 


但 是 ， 无 论 我 们 向 页 中 插入 了 多 少 条 记录 ， 设 计 InnoDB 的 大 叔 都 规定 ， 任 何 用 户 记 录 都 
比 Infimum 记录 大 ， 任 何 用 户 记 录 都 比 Supremum 记录 小 。 


对 然 Infimum 记 和 Supremum 记录 没有 主键 值 ， 但 是 设计 InnoDB 的 大 叔 规定 : 
Infimum 记录 是 一 个 页 面 中 最 小 的 记录 ， Supremum 记录 是 一 个 页 面 中 最 大 的 记录 这 


| 


小 由 十 是 规定 ! 规定 ! 规定 ! 


D: 


Infimum 和 Supremum 这 两 条 记录 的 构造 十 分 简单 ， 都 是 由 5 字 节 大 小 的 记录 头 信 息 和 8 
字 节 大 小 的 一 个 固定 单词 组 成 的 ， 如 图 5-7 所 示 。 


这 部 分 是 固定 的 ， 代 表单 词 infimum 


Infimum 记 录 : 


Supremum 记 录 : 





这 部 分 也 是 固定 的 ， 代 表单 词 'supremum' 


图 5-7 Infimum 和 Supremum 记录 的 结构 


由 于 Infimum 和 Supremum 这 两 条 记录 是 设计 InnoDB 的 大 叔 默认 创建 的 记录 ， 为 了 与 用 
户 自己 插入 的 记录 进行 区 分 ， 我 们 就 不 把 它们 存放 在 页 的 User Records 部 分 ， 而 是 单独 放 在 一 
个 称 为 nfimum + Supremum 的 部 分 ， 如 图 5-8 所 示 。 
从 图 5-8 可 以 看 出 ，Infimum 记录 和 Supremum 记录 的 heap no 值 分 别 是 0 和 1， 也 就 是 说 它 
们 在 堆 中 的 相对 位 置 最 靠 前 。 另 外 还 需要 注意 的 一 点 是 ， 堆 中 记录 的 heap no 值 在 分 配 之 后 就 不 
会 发 生 改 动 了 ， 即 使 之 后 删除 了 堆 中 的 某 条 记录 ， 这 条 被 删除 记录 的 heap_no 值 也 仍然 保持 不 变 。 
e@ record type : 这 个 属性 表示 当前 记录 的 类 型 。 一 共有 4 种 类 型 的 记录 ， 其 中 0 表示 普 
通 记 录 ，1 表示 B+ 树 非 叶 节 点 的 目录 项 记录 ，2 表示 Inftmum 记录 ，3 表示 Supremum 
记录 。 从 图 5-8 也 可 以 看 出 ， 我 们 自己 插入 的 记录 就 是 普通 记录 ， 它 们 的 record 
值 都 是 0， 而 Infimum 记录 和 Supremum 记录 的 record type 值 分 别 为 2 和 3。 至 于 
record type 为 1 的 情况 ， 我 们 之 后 在 哮 明 索 引 的 时 候 会 重点 介绍 的 。 
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图 5-8 ”记录 存放 方式 


@ next record : 这 个 属性 非常 重要 ， 它 表示 从 当前 记录 的 真实 数据 到 下 一 条 记录 的 真实 
数据 的 距离 。 如 果 该 属性 值 为 正 数 ， 说 明 当 前 记录 的 下 一 条 记录 在 当前 记录 的 后 面 ; 
如 果 该 属性 值 为 负数 ， 说 明 当 前 记录 的 下 一 条 记录 在 当前 记录 的 前 面 。 比 如 ， 第 1 条 
记录 的 next record 值 为 32， 意 味 着 从 第 1 条 记录 的 真实 数据 的 地 址 处 向 后 找 32 字 节 | 
便 是 下 一 条 记录 的 真实 数据 。 再 比如 ， 第 4 条 记录 的 next record 值 为 -111， 意 味 着 从 | 
第 4 条 记录 的 真实 数据 的 地 址 处 向 前 找 111 字 节 便 是 下 一 条 记录 的 真实 数据 。 如 果 大 
家 熟悉 数据 结构 的 话 ， 就 会 立即 明白 这 其 实 就 是 个 链表 ， 可 以 通过 一 条 记录 找到 它 的 
下 一 条 记录 。 但 是 需要 注意 的 一 点 是 ， 下 一 条 记录 指 的 并 不 是 插入 顺序 中 的 下 一 条 记 
录 ， 而 是 按照 主键 值 由 小 到 大 的 顺序 排列 的 下 一 条 记录 。 而 且 规 定 Infimum 记录 的 下 
一 条 记录 就 是 本 页 中 主键 值 最 小 的 用 户 记 录 ， 本 页 中 主键 值 最 大 的 用 户 记 录 的 下 一 条 
记录 就 是 Supremum 记录 。 为 了 更 形象 地 表示 这 个 next record 属性 的 作用 ， 我 们 用 第 
头 来 替代 next record 中 的 值 〈 注 意 箭头 指向 的 位 置 ， 每 个 箭头 都 指向 记录 的 真实 数据 
开始 的 地 方 )， 如 图 5-9 所 示 。 


5—— ~ rep mo rort rrpe sen rd 


suet | 





图 5-9 ”使 用 箭头 蔡 代 next_record 的 值 


eye si an 
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从 图 5-9 可 以 看 出 ， 记 录 按 照 主键 从 小 到 大 的 顺序 形成 了 一 个 单 向 链表 。Supremum 记录 的 
next record 值 为 0， 也 就 是 说 Supremum 记录 之 后 就 没有 下 一 条 记录 了 ， 这 也 意味 着 Supremum 
记录 就 是 这 个 单 同 链表 中 的 最 后 一 个 节点 。 如 果 从 表 中 删除 一 条 记录 ， 这 个 由 记录 组 成 的 单 向 
链表 也 是 会 跟着 变化 ， 比 如 我 们 把 第 2 条 记录 删 掉 : 


mySql> DELETE FROM page demo WHERE cl = 2; 
Query OK, 1 row affected (0.02 Sec) 


删 掉 第 2 条 记录 后 的 示意 图 如 图 5-10 所 示 。 








dbsed Fing wi re Bg ed berg re moondl type 


第 1 条 记录 : 


第 2 条 记录 : 


第 3 条 记录 : 


第 4 条 记录 : 


图 5-10” 删 掉 第 2 条 记录 后 的 示意 图 


从 图 5-10 可 以 看 出 ， 删 除 第 2 条 记录 后 主要 发 生 了 下 面 这 些 变 化 : 

e 第 2 条 记录 并 没有 从 存储 空间 中 移 除 ， 而 是 把 该 条 记录 的 deleted fag 值 设置 为 1; 

e 第 2 条 记录 的 next record 值 变 为 0， 意 味 着 该 记录 没有 下 一 条 记录 了 ; 

e 第 1 条 记录 的 next record 指向 了 第 3 条 记录 ; 

e 还 有 一 点 大 家 可 能 忽略 了 ， 那 就 是 Supremum 记录 的 n owned 值 从 5 变 成 了 4。 关 于 

这 一 点 变化 稍 后 会 详细 介绍 。 

所 以 ,无论 怎 么 对 页 中 的 记录 进行 增删 改 操 作 ，InnoDB 始终 会 维护 记录 的 一 个 单 同 链表 ， 

链表 中 的 各 个 节点 是 按照 主键 值 由 小 到 大 的 顺序 链接 起 来 的 。 


大 家 会 不 会 觉得 next record 这 个 指针 有 点 儿 奇 怪 ， 它 为 哈 要 指向 记录 头 信 息 和 真 
”实数 据 之 间 的 位 置 呢 ? 为 哈 不 干脆 指向 整 条 记录 的 开头 位 置 ， 也 就 是 记录 的 额外 信息 开 
全 : 头 的 位 置 呢 ? 原因 是 这 个 位 置 刚刚 好 ， 向 左 读 取 就 是 记录 头 信息 ， 向 右 读 取 就 是 真实 数 ， 
,EL ” 据 。 前 文 还 说 过 ， 变 长 字段 长 度 列表 、NULE 值 列 表 中 的 信息 都 是 逆序 存放 的 ， 这 样 可 
以 使 记录 中 位 置 夺 前 的 守 亿 和 溃 向 对 局 固 呈 了 大 凑 信 息 在 内 仓 中 的 下 多 亚 近 。 这 各 会 

提高 高 速 缓存 的 命中 率 . 


再 来 看 一 个 有 意思 的 事情 : 主键 值 为 2 的 记录 被 删 掉 了 ， 但 是 却 没 有 回收 存储 空间 (该 记 
录 的 heap_no 也 未 发 生 改变 )， 如 果 我 们 再 次 把 这 条 记录 插入 到 表 中 ， 会 发 生 什么 昵 ? 


一 
一 一 


wy 
人 
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mysgql> INSERT INTO page demo VALUES(2, 200, ‘bbbb'); 
Query OK, 1 row affected (0.00 sec) 


我 们 看 一 下 记录 的 存储 情况 ， 如 图 5-11 所 示 。 


PO “3 了 、 “> 





5-11 再 次 将 第 2 条 记录 插入 后 ， 记 录 的 存储 情况 


从 图 5-11 可 以 看 到 ，InnoDB 并 没有 因为 新 记录 的 插入 而 为 它 申请 新 的 存储 空间 ， 而 是 直 \ 
接 复 用 了 原来 被 删除 记录 的 存储 空间 。 | 


当 数据 页 中 存在 多 条 被 删除 的 记录 时 ， 可 以 使 用 这 些 记 录 的 next_record 属性 将 这 

- 仿 - “ 些 被 删除 的 记录 组 成 一 个 垃圾 链表 ， 以 备 之 后 重用 这 部 分 存储 空间 关于 垃圾 链表 的 更 

小 幅 十 “多 信息 ， 第 20 章 会 进行 超级 详细 的 描述 ， 现在 先 姥 颖 点 水 般 地 知道 这 些 就 好 了 一 口 
吃 不 成 个 胖子 . 
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现在 ， 我 们 知道 了 记录 在 页 中 是 按照 主键 值 由 小 到 大 的 顺序 串联 成 一 个 单 向 链表 ， 如 果 想 
根据 主键 值 查 找 页 中 的 某 条 记录 ， 该 咋 办 呢 ? 比如 说 下 面 这 样 的 查询 语句 : 


SELECT * FROM page demo WHERE cl = 3; 


最 符 的 办 法 是 从 Infimum 记录 开始 ， 沿 着 单 向 链表 一 直 往 后 找 ， 总 有 一 天 会 找到 (或 者 找 
不 到 )。 而 且 在 找 的 时 候 还 能 投机 取 巧 ， 因 为 链表 中 各 个 记录 的 值 是 按照 从 小 到 大 的 顺序 排列 
的 ， 所 以 当 链 表 中 某 个 节点 代表 的 记录 的 主键 值 大 于 想 要 查找 的 主键 值 时 ， 就 可 以 停止 查找 了 
(因为 该 节点 后 边 的 节点 的 主键 值 依次 递增 )。 

当 页 中 存储 的 记录 数量 比较 少时 ， 这 种 方法 用 起 来 也 没有 啥 问题 。 比 如 ， 我 们 的 表 中 只 插 
入 了 4 条 目 己 的 记录 ， 所 以 最 多 找 4 次 就 可 以 把 所 有 记录 都 遍历 一 遍 。 但 是 ， 如 果 一 个 页 中 存 
储 了 非常 多 的 记录 ， 遍 历 操作 对 性 能 来 说 还 是 有 损耗 的 ， 所 以 说 这 种 遍历 查找 是 一 个 笨 办 法 。 
但 是 设计 InnoDB 的 大 叔 是 什么 人 ， 他 们 能 用 这 么 笨 的 办 法 么 ， 当 然 是 要 设计 一 种 更 好 的 查找 
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方式 了 。 他 们 从 图 书 的 目录 中 找到 了 灵感 。 


我 们 平时 在 一 本 书 中 查找 某 个 内 容 的 时 候 ， 一 般 会 先 看 目录 ， 找 到 该 内 容 对 应 的 图 书页 
码 ， nn 贡 计 InnoDB 的 大 叔 也 为 我 们 的 记录 制作 了 一 个 类 似 的 
he 
. 将 所 有 正常 的 记录 (包括 Infimum 和 Supremum 记录 ， 但 不 包括 已 经 移 除 到 垃圾 链表 
的 记录 ) 划分 为 几 个 组 。 
2. 每 个 组 的 最 后 一 条 记录 〈 也 就 是 组 内 最 大 的 那 条 记录 ) 相当 于 “带头 大 哥 ”， 组 内 其 余 的 记 
录 相 当 于 “小 弟 "-“ 带 头 大哥 ” 记 录 的 头 信息 中 的 n_owned 属性 表示 该 组 内 共有 几 条 记录 。 
3. 将 每 个 组 中 最 后 一 条 记录 在 页 面 中 的 地 址 偏 移 量 〈 就 是 该 记录 的 真实 数据 与 页 面 中 
第 0 个 字 节 之 间 的 距离 ) 单独 提取 出 来 ， 按 顺序 存储 到 靠近 页 尾部 的 地 方 。 这 个 地 方 
就 是 Page Directory (页 目录 ， 见 图 5-1)。 页 目录 中 的 这 些 地 址 偏 移 量 称 为 权 (Slot)， 
每 个 槽 占用 2 字 节 。 页 目录 就 是 由 多 个 模 组 成 的 。 


» 


他: 一 个 正常 的 页 面 也 就 是 16KB 大 小 ， 即 16384 字 节 ， 而 字 节 可 以 表示 的 地 址 信和 
/KR 量 范围 是 0 一 65535， 所 以 有 2 字 节 表示 一 个 槽 足够 了 。 


比如 ， 现 在 page_demo 表 中 正常 的 记录 共有 6 条 。InnoDB 会 把 它们 分 成 2 个 组 ， 第 一 组 
只 有 一 个 Infimum 记录 ， 第 二 组 是 剩余 的 5 条 记录 。2 个 组 就 对 应 着 2 个 槽 ， 每 个 槽 中 存放 每 
个 组 中 最 大 的 那 条 记录 在 页 面 中 的 地 址 偏 移 量 ， 如 图 5-12 所 示 。 
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部 分 
的 地 址 偏 移 量 
图 $-12 ”page_demo 表 中 的 记录 排列 方式 
在 图 5-12 中 需要 注意 下 面 几 操 。 
e 页 目录 部 分 中 有 2 个 模 ， 也 就 意味 着 记录 被 分 成 了 2 个 组 。 槽 1 中 的 值 是 112， 代 表 
Supremum 记录 在 页 面 中 的 地 址 偏 移 量 (就 是 从 页 面 的 0 字 节 开始 数 ， 数 112 字 节 ); 
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槽 0 中 的 值 是 99， 代 表 Infimum 记录 的 地 址 偏 移 量 。 
e 注意 Infimum 记录 和 Supremum 记录 的 头 信息 中 的 n_owned 属性 。 
ma Infimum 记录 的 n owned 值 为 1， 这 表示 以 Infimum 记录 为 最 后 一 个 节点 的 这 个 分 
组 中 只 有 1 条 记录 ， 也 就 是 Infimum 记录 自身 。 
sm Supremum 记录 的 n_owned 值 为 5， 这 表示 以 Supremum 记录 为 最 后 一 个 节点 的 这 
个 分 组 中 有 5 条 记录 ， 即 除了 Supremum 记录 自身 之 外 ， 还 有 我 们 插入 的 4 条 记录 。 
e 每 个 槽 占用 2 字 节 ， 按 照 对 应 记录 的 大 小 相 邻 分 布 。 槽 对 应 的 记录 越 小 ， 它 的 位 置 越 
靠近 File Trailer。 
99 和 112 这 样 的 地 址 偏 移 量 很 不 直观 ， 我 们 用 箭头 指向 的 方式 替代 数字 ， 这 样 更 容易 理 
解 。 修 改 后 的 记录 排列 方式 示意 图 如 图 5-13 所 示 。 





5-13 ”用 箭头 苦 代 槽 中 数字 的 示意 图 


怎么 看 上 去 怪 怪 的 呢 ? 这 么 乱 的 图 对 于 我 这 个 强迫 症 患 者 真是 不 能 忍 ， 我 们 暂时 先 不 管 各 条 
记录 在 存储 设备 上 的 排列 方式 了 ， 单 纯 从 逻辑 上 看 一 下 这 些 记 录 和 页 目录 的 关系 ， 如 图 5-14 所 示 。 
这 样 一 来 就 顺眼 多 了 ! 不 过 划分 分 组 的 依据 是 什么 呢 ， 也 就 是 说 ， 为 什么 Infimum 记录 的 
n_ owned 值 为 1， 而 Supremum 记录 的 n_ owned 值 为 5 呢 ? 这 里 面 有 什么 猫腻 ? 
是 的 ， 设 计 InnoDB 的 大 叔 对 每 个 分 组 中 的 记录 条 数 是 有 规定 的 : 对 于 Infimum 记录 所 在 的 
分 组 只 能 有 1 条 记录 ，Supremum 记录 所 在 的 分 组 拥有 的 记录 条 数 只 能 在 1 一 8 条 之 间 ， 剩 下 的 
分 组 中 记录 的 条 数 范 围 只 能 是 在 4 一 8 条 之 间 。 所 以 给 记录 进行 分 组 是 按照 下 面 的 步骤 进 行 的 。 
1. 在 初始 情况 下 ， 一 个 数据 页 中 只 有 Infimum 记录 和 Supremum 记录 这 两 条 ， 它 们 分 属 
于 两 个 分 组 。 页 目录 中 也 只 有 两 个 槽 ， 分 别 代 表 Infimum 记录 和 Supremum 记录 在 页 
面 中 的 地 址 偏 移 量 。 

2. 之 后 每 插入 一 条 记录 ， 都 会 从 页 目录 中 找到 对 应 记录 的 主键 值 比 待 插入 记录 的 主键 值 大 
并 且 差 值 最 小 的 模 《〈 从 本 质 上 来 说 ， 权 是 一 个 组 内 最 大 的 那 条 记录 在 页 面 中 的 地 址 偏 移 
量 ， 通 过 槽 可 以 快速 找到 对 应 的 记录 的 主键 值 )， 然 后 把 该 槽 对 应 的 记录 的 n owned 值 
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加 1， 表 示 本 组 内 又 添加 了 一 条 记录 ， 直 到 该 组 中 的 记录 数 等 于 8 个 。 


Te 有 | 上 这 5 条 记录 是 一 个 分 组 








图 5-14 记录 和 页 目录 的 关系 


ry 


人 2: 再 次 强调 ， 对 于 tof 记录 和 Sabri ,记录 来 说 。 它们 加 到 杀 没 有 主人， 但 是 
小 贴 十 ”人 为 规定 它们 是 一 个 页 面 中 最 小 和 最 大 的 记录 - Es 


3. 当 一 个 组 中 的 记录 数 等 于 8 后 ， 再 插入 一 条 记录 ， 会 将 组 中 的 记录 拆 分 成 两 个 组 ， 其 
中 一 个 组 中 4 条 记录 ， 另 一 个 5 条 记录 。 这 个 拆 分 过 程 会 在 页 目录 中 新 增 一 个 模 ， 记 
录 这 个 新 增 分 组 中 最 大 的 那 条 记录 的 偏 移 量 。 

由 于 现在 page demo 表 中 的 记录 太 少 ， 无 法 演示 在 添加 页 目录 之 后 是 如 何 加 快 查找 速度 


的 ， 所 以 我 们 再 往 page_demo 表 中 添加 一 些 记录 : 
mysql> INSERT INTO page demo VALUES(5, 500, 'eeee'), (6, 600, "ffff"'), (7, 700, 'gggg'), 
(8, 800, "hhhh'), (9, 900, "iiii"), (10, 1000, "3333),. (11, 1100, "kkkk'),; (12, 1200, "1111°), 
(13, 1300, "mmmm'), (14, 1400, "nnnn'), (15, i1500, 'o000'), (16, 1600, 'pppp'); 


Query OK, 12 rows affected (0.00 sec) 
Records: 12 Duplicates: 0 Warnings: 0 


我 们 一 口气 往 表 中 添加 了 12 条 记录 ， 现 在 页 中 就 一 共有 18 条 记录 了 【包括 Infimum 和 
Supremum 记录 )。 这 些 记 录 被 分 成 了 5 个 组 ， 如 图 5-15 所 示 。 


> 我 们 这 里 在 插入 记录 时 是 按照 主键 值 队 小 到 大 的 顺序 依次 插入 的 . 如 果 插 入 的 记 
9 录 的 主键 值 没有 顺序 ， i 步 对 推演 一 
小 贴 士 ”下 ， 页 目录 将 会 变 成 什么 样子 。 : 


因为 把 16 条 记录 的 全 部 信息 都 画 在 一 张 图 中 太 占 地 方 ， 也 容易 让 人 眼花 ， 所 以 这 里 也 省 
略 了 各 个 记录 之 间 的 箭头 (图 里 没 画 不 代表 没有 ! )， 只 保留 了 用 户 记 录 头 信息 中 的 n_owned 
和 next_record 属性 。 现 在 看 看 怎么 在 这 个 页 目录 中 查找 记录 。 因 为 一 个 槽 占用 2 字 节 ， 各 个 
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槽 之 间 是 挨 着 的 ， 而 且 它们 代表 的 记录 的 主键 值 都 是 从 小 到 大 排序 的 ， 所 以 可 以 使 用 二 分 法 快 
速 查找 。5 个 槽 的 编号 分 别 是 0、1、2、3、4， 所 以 初始 情况 下 最 低 的 槽 就 是 low=0， 最 高 的 
槽 就 是 high=4。 比 如 ， 我 们 想 找 主键 值 为 6 的 记录 ， 过 程 是 这 样 的 。 





这 1 条 记录 是 一 个 分 组 


这 4 条 记录 是 一 个 分 组 


这 4 条 记录 是 一 个 分 组 


上 
| 


这 5 条 记录 是 一 个 分 组 


图 5-15 向 page demo 表 中 添加 记录 


计算 中 间 槽 的 位 置 : (0+4)2=2， 查 看 模 2 对 应 记录 的 主键 值 为 8; 又 因为 8 > 6， 所 以 
设置 high=2，low 保持 不 变 。 


. 重新 计算 中 间 槽 的 位 置 : (0+2)/2=1， 查 看 槽 1 对 应 记录 的 主键 值 为 4; 又 因为 4< 6， 


所 以 设置 low=1，high 保持 不 变 。 


因为 high 一 low 的 值 为 1， 所 以 确定 主键 值 为 6 的 记录 在 权 2 对 应 的 组 中 。 此 时 需要 找 


到 槽 2 所 在 分 组 中 主键 值 最 小 的 那 条 记录 ， 然 后 沿 着 单 问 链表 遍历 槽 2 中 的 记录 。 但 
是 前 文 又 说 过 ， 每 个 槽 对 应 的 记录 都 是 该 组 中 主键 值 最 大 的 记录 ， 这 里 槽 2 对 应 的 记 
录 是 主键 值 为 8 的 记录 ， 怎 么 定位 一 个 组 中 最 小 的 记录 了 呢 ? 别 示 了 各 个 槽 都 是 挨 着 的 ， 
我 们 可 以 很 轻易 地 找到 槽 1 对 应 的 记录 〈 主 键 值 为 4) ， 这 条 记录 的 下 一 条 记录 就 是 槽 
2 所 在 分 组 中 主键 值 最 小 的 记录 ， 其 主键 值 为 5。 所 以 ， 我 们 可 以 从 这 条 主键 值 为 5 的 
记录 出 发 ， 裔 历 权 2 中 的 各 条 记录 ， 直 到 找到 主键 值 为 6 的 那 条 记录 即 可 。 由 于 一 个 
组 中 包含 的 记录 条 数 最 多 是 8 条 ， 所 以 遍历 一 个 组 中 的 记录 的 代价 是 很 小 的 。 


综 上 所 述 ， 在 一 个 数据 页 中 查找 指定 主键 值 的 记录 时 ， 过 程 分 为 两 步 。 


通过 二 分 法 确定 该 记录 所 在 分 组 对 应 的 槽 ， 然 后 找到 该 槽 所 在 分 组 中 主键 值 最 小 的 那 
条 记录 。 


2. 通过 记录 的 next record 属性 遍历 该 槽 所 在 的 组 中 的 各 个 记录 。 


如 果 你 不 知道 三 分 法 是 什么 ， 找 本 基础 算法 书 看 看 吧 。 
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5.5 ” Page Header ( 页 面 头 部 ) | - z | 四 - we 

设计 InnoDB 的 大 叔 为 了 能 得 到 存储 在 数据 页 中 的 记录 的 状态 信息 ， 比 如 数据 页 中 已 经 存 
储 了 多 少 条 记录 、Free Space 在 页 面 中 的 地 址 偏 移 量 、 页 目录 中 存储 了 多 少 个 槽 等 ， 特 意 在 数 
据 页 中 定义 了 一 个 名 为 Page Header 的 部 分 ， 它 是 页 结构 的 第 2 部 分 〈 见 图 5-1)， 占 用 固定 的 
56 字 节 ， 专 门 存储 各 种 状态 信息 。Page Header 中 各 个 字 节 的 具体 用 途 如 表 5-3 所 示 。 


表 5-3 Page Header 的 结构 及 描述 


状态 名 称 占用 空间 大 小 描述 
PAGE N DIR SLOTS 在 页 目录 中 的 槽 数量 
i 还 未 使 用 的 空间 最 小 地 址 ， 也 就 是 说 从 该 地 址 之 后 就 
是 Free Space 
第 1 位 表示 本 记录 是 否 为 紧凑 型 的 记录 ， 剩 余 的 15 位 表 
PAGE N HEAP 2 字 节 示 本 页 的 堆 中 记录 的 数量 (包括 Infimum 和 Supremum 记 


录 以 及 标记 为 “已 删除 ”的 记录 ) 
各 个 已 删除 的 记录 通过 next record 组 成 一 个 单 向 链表 ， 


这 个 单 向 链表 中 的 记录 所 占用 的 存储 空间 可 以 被 重新 
EN 下 利用 , PAGE_FREE 表示 该 链表 头 节点 对 应 记录 在 页 面 
中 的 偏 移 量 
PAGE GARBAGE 己 删 除 记录 占用 的 字 节 数 
PAGE LAST INSERT 最 后 插入 记录 的 位 置 
PAGE DIRECTION 记录 插入 的 方向 
PAGE N_DIRECTION 一 个 方向 连续 插入 的 记录 数量 
该 页 中 用 户 记 录 的 数量 (不 包括 Infimum 和 Supremum 
PA RE 记录 以 及 被 删除 的 记录 ) 
oy 修改 当前 页 的 最 大 事务 计 ， 访 值 仅 在 二 级 索引 页 面 中 
定义 
PAGE LEVEL 当前 页 在 B+ 树 中 所 处 的 层级 
PAGE INDEX_ID 索引 ID， 表 示 当前 页 属于 哪个 索引 
mp PAB, 仅 在 B+ 树 的 根 页 面 中 
> ‘ » B 
i B+ 树 非 叶子 节点 段 的 头 部 信息 ， 仅 在 B+ 树 的 根 页 面 


中 定义 


如 果 大 家 认真 看 过 前 文 ， 一 定 会 清楚 从 PAGE N_DIR SLOTS 到 PAGE LAST INSERT 以 
及 PAGE N_RECS 的 意思 。 如 果 不 清楚 ， 你 应 该 回头 再 看 一 遍 前 文 。 剩 下 的 状态 信息 看 不 明 
日 也 不 要 着 急 ， 饭 要 一 口 一 口吃 ， 东 西 要 一 点 一 点 学 (一 定 要 沉 住 气 ， 不 要 被 这 些 名 词 吓 到 )。 
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在 这 里 我 们 先 踪 明 PAGE DIRECTION 和 了 PAGE N_DIRECTION 的 意思 。 
e PAGE DIRECTION : 假如 新 插入 的 一 条 记录 的 主键 值 比 上 一 条 记录 的 主键 值 大 ， 我 
们 说 这 条 记录 的 插入 方向 是 右边 ， 反 之 则 是 左边 。 用 来 表示 最 后 一 条 记录 插入 方 同 的 
状态 就 是 PAGE DIRECTION。 
e PAGE N _ DIRECTION : 假设 连续 几 次 插入 新 记录 的 方向 都 是 一 致 的 ，InnoDB 会 把 沿 
着 同一 个 方向 插入 记录 的 条 数 记 下 来 ， 这 个 条 数 就 用 PAGE_N_DIRECTION 状态 表示 。 
当然 ， 如 果 最 后 一 条 记录 的 插入 方向 发 生 了 改变 ， 这 个 状态 的 值 会 被 清 零 后 重新 统计 。 
至 于 还 没 提 到 的 那些 状态 ， 现 在 大 家 还 不 需要 知道 。 不 要 着 急 ， 当 我 们 学 完了 后 面 的 内 容 
后 再 回头 来 看 ， 就 会 发 现 一 切 都 是 那么 清晰 。 


5.6_File Header ( 文件 头 部 ) 


前 文 啼 嘱 的 Page Header 专门 针对 的 是 数据 页 记录 的 各 种 状态 信息 ， 比 如 页 里 有 多 少 条 记 
录 ， 有 多 少 个 槽 。 现 在 介绍 的 File Header 通用 于 各 种 类 型 的 页 ， 也 就 是 说 各 种 类 型 的 页 都 会 
以 File Header 作为 第 一 个 组 成 部 分 ， 它 描述 了 一 些 通用 于 各 种 页 的 信息 ， 比 如 这 个 页 的 编号 
是 多 少 ， 它 的 上 一 个 页 和 下 一 个 页 是 谁 ， 等 等 等 等 。File Header 部 分 占用 固定 的 38 字 节 ， 由 
表 5-4 所 示 的 内 容 组 成 。 


表 5-4 File Header 的 结构 及 描述 


状态 名 称 占用 空间 大 小 描述 
当 MySQL 的 版 本 低 于 4.0.14 时 ， 该 属性 表 
FIL PAGE SPACE OR CHKSUM 4 字 节 示 本 页 面 所 在 的 表 空 间 ID ; 在 之 后 的 版 本 
中 ， 该 属性 表示 页 的 校 验 和 “(checksum) 
FIL PAGE OFFSET 页 号 
FIL PAGE PREV 上 一 个 页 的 页 号 
FIL PAGE NEXT 4 字 节 下 一 个 页 的 页 号 


页 面 被 最 后 修改 时 对 应 的 LSN ( Log Sequence 


FIL PAGE TYPE 2 字 节 该 页 的 类 型 


仅 在 系统 表 空 间 的 第 一 个 页 中 定义 ， 代 表 
文件 至 少 被 刷新 到 了 对 应 的 LSN 值 


FIL PAGE ARCH LOG NO OR SPACE ID 4 字 节 页 属于 哪个 表 空 间 


FIL PAGE LSN 8 字 节 


FIL PAGE FILE FLUSH LSN 8 字 节 


对 照 着 表 5-4， 我 们 看 几 个 目前 比较 重要 的 部 分 。 

@ FIL PAGE SPACE OR CHKSUM : MySQL 4.0.14 以 下 的 版 本 应 该 没 人 用 了 吧 ， 我 们 
直接 讨论 高 于 4.0.14 版 本 的 情况 。 这 个 属性 代表 当前 页 面 的 校 验 和 (checksum)。 啥 是 
校 验 和 ? 就 是 对 于 一 个 很 长 的 字 节 串 来 说 ， 我 们 会 通过 某 种 算法 计算 出 一 个 比较 短 的 
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值 来 代表 这 个 很 长 的 字 节 串 ， 这 个 比较 短 的 值 就 称 为 校 验 和 。 这 样 在 比较 两 个 很 长 的 
字 节 串 之 前 ， 先 比较 这 两 个 长 字 节 串 的 校 验 和 。 如 果 校 验 和 都 不 一 样 ， 则 两 个 长 字 节 
串 衣 定 是 不 同 的 ， 这 样 就 省 去 了 直接 比较 两 个 长 字 节 串 的 时 间 损 耗 。 


@ FIL PAGE OFFSET : 每 一 个 页 都 有 一 个 单独 的 页 号 ， SD 
InnoDB 通过 页 号 来 唯一 定位 一 个 页 。 


e@ FIL PAGE TYPE : 表示 当前 页 的 类 型 。 前 文 说 过 ，InnoDB 为 了 不 同 的 目的 而 把 页 分 


为 不 同 的 类 型 ， 我 们 前 面 介 绍 的 都 是 存储 记录 的 数据 页 ， 其 实 还 有 很 多 其 他 类 型 的 页 ， 
如 表 5-5 所 示 。 


表 5-5 其 他 类 型 的 页 


类 型 名 称 ”描述 
FIL PAGE _ TYPE ALLOCATED 最 新 分 配 ， 还 未 使 用 
FIL PAGE UNDO LOG undo 日 志 页 
FIL PAGE INODE ] 存储 段 的 信息 


FIL PAGE IBUF FREE LIST 0x0004 Change Buffer 空闲 列表 


FIL PAGE IBUF BITMAP | 0x0005 Change Buffer 的 一 些 属性 


FIL PAGE TYPE SYS 存储 一 些 系 统 数 据 
FIL PAGE TYPE TRX SYS ] 事务 系统 数据 
FIL PAGE TYPE FSP HDR 表 空间 头 部 信息 
FIL PAGE TYPE XDES 存储 区 的 一 些 属性 


FIL PAGE TYPE BLOB 0x000A 洲 出 页 


FIL PAGE INDEX 索引 页 ， 也 就 是 我 们 所 说 的 数据 页 


用 来 存放 记录 的 数据 页 的 类 型 其 实 是 FIL PAGE INDEX， 人 也 就 是 索引 页 。 至 于 啥 是 索引 ， 
且 听 下 回 分解 。 





人 oo 所 说 的 注册 页 和 美 型 是 FILJ or Tp 
小 贴 士 ”BLOB， 而 存放 正常 记录 的 页 面 类 型 是 FIL_PAGE E_INDEX， 两 者 是 不 一 样 的 。 和 
® FIL PAGE PREV 和 FIL PAGE - NEXT : 前 文 强调 过 ，InnoDB 是 以 页 为 单位 存放 数据 
的 ， 有 时 在 存放 某 种 类 型 的 数据 时 ， 占 用 的 空间 非常 大 (比如 一 张 表 中 可 以 有 成 千 上 
万 条 记录 )。InnoDB 可 能 无 法 一 次 性 为 这 么 多 数据 分 配 一 个 非常 大 的 存储 空间 ， 而 如 
果 分 散 到 多 个 不 连续 的 页 中 进行 存储 ， 则 需要 把 这 些 页 关联 起 来 ，FIL_ PAGE PREV 
和 FIL PAGE NEXT 就 分 别 代表 本 数据 页 的 上 一 个 页 和 下 一 个 页 的 页 号 。 这 样 通过 建 
立 一 个 双 同 链表 就 把 许 许 多 多 的 页 串联 起 来 了 ， 而 无 须 这 些 页 在 物理 上 真正 连 着 。 需 
要 注意 的 是 ， 并 不 是 所 有 类 型 的 页 都 有 上 一 个 页 和 下 一 个 页 的 属性 ， 不 过 我 们 这 里 啼 
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叫 的 数据 页 (也 就 是 类 型 为 FIL PAGE INDEX 的 页 ) 是 有 这 两 个 属性 的 。 所 以 ， 存 储 
记录 的 数据 页 其 实 可 以 组 成 一 个 双 同 链表 ， 如 图 5-16 所 示 。 


数据 页 n 


r 各 和 ) 了 Te \ 
Pape Dircctor, Page Directory Pape Directory 


Pile Trailer File Frailler File Trailler hilo lirailer 


图 5-16 数据 页 组 成 的 双 疝 链表 
关于 File Header 的 其 他 属性 暂时 用 不 到 ， 等 后 面 用 到 的 时 候 再 提 。 





5.7 ”File Trailer ( 文件 尾部 ) 


我 们 知道 ，InnoDB 存储 引擎 会 把 数据 存储 到 磁盘 上 ， 但 是 磁盘 速度 太 慢 ， 需 要 以 页 为 单位 把 数 
据 加 载 到 内 存 中 人 处理 。 如 果 该 页 中 的 数据 在 内 存 中 被 修改 了 ， 那 么 在 修改 后 的 某 个 时 间 还 需要 把 数 
据 刷 新 到 磁盘 中 。 但 是 ， 如 果 在 刷新 还 没有 结束 的 时 候 断 电 了 该 咋 办 ， 这 不 是 相当 尴 座 么 ?为 了 
检测 一 个 页 是 否 完整 〈 也 就 是 在 刷新 时 有 没有 发 生 只 刷新 了 一 部 分 的 尴 众 情况 )， 设 计 InnoDB 的 
大 叔 在 每 个 页 的 尾部 都 加 了 一 个 File Trailer 部 分 ， 这 个 部 分 由 8 字 节 组 成 ， 可 以 分 成 2 个 小 部 分 。 
e 前 4 字 节 代表 页 的 校 验 和 。 这 个 部 分 与 File Header 中 的 校 验 和 相对 应 。 每 当 一 个 页 面 
在 内 存 中 发 生 修 改 时 ， 在 刷新 之 前 就 要 把 页 面 的 校 验 和 算出 来 。 因 为 File Header 在 页 
面 的 前 边 ， 所 以 File Header 中 的 校 验 和 会 被 首先 刷新 到 磁盘 ， 当 完全 写 完 后 ， 校 验 和 
也 会 被 写 到 页 的 尾部 。 如 果 页 面 刷新 成 功 ， 则 页 首 和 页 尾 的 校 验 和 应 该 是 一 致 的 。 如 
果 刷 新 了 一 部 分 后 断 电 了 ， 那 么 File Header 中 的 校 验 和 就 代表 着 已 经 修改 过 的 页 ， 而 
File Trailer 中 的 校 验 和 代表 着 原先 的 页 ， 二 者 不 同 则 意味 着 刷新 期 间 发 生 了 错误 。 
e 后 4 字 节 代表 页 面 被 最 后 修改 时 对 应 的 LSN 的 后 4 字 节 ， 正 常情 况 下 应 该 与 File 
Header 部 分 的 FIL PAGE _ LSN 的 后 4 字 节 相同 。 这 个 部 分 也 是 用 于 校 验 页 的 完整 性 ， 
不 过 我 们 目前 还 没 说 LSN 是 什么 意思 ， 所 以 大 家 可 以 先 不 用 管 这 个 属性 。 
这 个 File Trailer 与 File Header 类 似 ， 都 通用 于 所 有 类 型 的 页 。 


5.8 总 结 


InnoDB 为 了 不 同 的 目的 而 设计 了 不 同类 型 的 页 ， 我 们 把 用 于 存放 记录 的 页 称 为 数据 页 。 





> 
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一 个 数据 页 可 以 被 大 致 划分 为 7 个 部 分 ， 分 别 如 下 。 
e@ File Header : 表示 页 的 一 些 通用 信息 ， 占 固定 的 38 字 节 。 
e@ Page Header : 表示 数据 页 专 有 的 一 些 信 息 ， 占 固定 的 56 字 节 。 
e Infimum + Supremum : 两 个 虚拟 的 伪 记 录 ， 分 别 表示 页 中 的 最 小 记录 和 最 大 记录 ， 占 
固定 的 26 字 节 。 
e@ User Records : 真正 存储 我 们 插入 的 记录 ， 大 小 不 固定 。 
@ Free Space : 页 中 尚未 使 用 的 部 分 ， 大 小 不 固定 。 
e@ Page Directory : 页 中 某 些 记 录 的 相对 位 置 ， 也 就 是 各 个 槽 对 应 的 记录 在 页 面 中 的 地 址 
偏 移 量 ; 大 小 不 固定 ， 插 入 的 记录 越 多 ， 这 个 部 分 占用 的 空间 就 越 多 。 
e@ File Trailer : 用 于 检验 页 是 否 完整 ， 占 固定 的 8 字 节 。 
每 个 记录 的 头 信息 中 都 有 一 个 next record 属性 ， 从 而 可 以 使 页 中 的 所 有 记录 串联 成 一 个 
单身 链表 。 
InnoDB 会 把 页 中 的 记录 划分 为 若干 个 组 ， 每 个 组 的 最 后 一 个 记录 的 地 址 偏 移 量 作为 一 个 
槽 ， 存 放 在 Page Directory 中 ， 一 个 槽 占用 2 字 节 。 在 一 个 页 中 根据 主键 查找 记录 是 非常 快 的 ， 
分 为 两 步 。 
1. 通过 二 分 法 确定 该 记录 所 在 分 组 对 应 的 槽 ， 并 找到 该 槽 所 在 分 组 中 主键 值 最 小 的 那 条 
记录 。 | 
2. 通过 记录 的 next record 属性 遍历 该 槽 所 在 的 组 中 的 各 个 记录 。 
每 个 数据 页 的 File Header 部 分 都 有 上 一 个 页 和 下 一 个 页 的 编号 ， 所 以 所 有 的 数据 页 会 组 
成 一 个 双向 链表 。 
在 将 页 从 内 存 刷新 到 磁盘 时 ， 为 了 保证 页 的 完整 性 ， 页 首 和 页 尾 都 会 存储 页 中 数据 的 校 验 
和 ， 以 及 页 面 最 后 修改 时 对 应 的 LSN 值 〈 页 尾 只 会 存储 LSN 值 的 后 4 字 节 )。 如 果 页 首 和 页 
尾 的 校 验 和 以 及 LSN 值 校 验 不 成 功 ， 就 说 明 刷 新 期 间 出 现 了 问题 。 
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前 文 详 细 踪 胃 了 InnoDB 数据 页 的 7 个 组 成 部 分 ， 我 们 知道 了 各 个 数据 页 可 以 组 成 一 个 双 
向 链表 ， 而 每 个 数据 页 中 的 记录 会 按照 主键 值 从 小 到 大 的 顺序 组 成 一 个 单 同 链表 。 每 个 数据 页 
都 会 为 存储 在 它 里 面 的 记录 生成 一 个 页 目录 ， 在 通过 主键 查找 某 条 记录 的 时 候 可 以 在 页 目录 中 
使 用 二 分 法 快速 定位 到 对 应 的 槽 ， 然 后 再 遍历 该 槽 对 应 分 组 中 的 记录 即 可 快速 找到 指定 的 记 
录 (如 果 你 对 这 段 话 有 一 丁点 儿 疑 惑 ， 那 么 接 下 来 的 部 分 不 适合 你 ， 返 回去 看 一 下 数据 页 结构 
吧 )。 页 和 记录 的 关系 示意 图 如 图 6-1 所 示 。 





图 6-1 页 和 记录 的 关系 示意 图 


其 中 ， 页 a、 页 b、 页 c…… 页 n 这 些 页 可 以 不 在 物理 结构 上 相连 ， 只 要 通过 双向 链表 相 
关联 即 可 。 


6.1 没有 索引 时 进行 查找 


本 章 的 主题 是 索引 。 在 正式 介绍 索引 之 前 ， 我 们 需要 了 解 一 下 在 没有 索引 时 是 怎么 查找 记录 
的 。 为 了 方便 大 家 理解 ， 我 们 先 只 路 功 搜索 条 件 为 某 个 列 等 于 茶 个 常数 的 情况 ， 比 如 下 面 这 样 : 


SELECT [查询 列表 ] FROM 表 名 WHERE 列 名 = XXX; 


6.1.1 在 一 个 页 中 查找 


假设 目前 表 中 的 记录 比较 少 ， 所 有 的 记录 都 可 以 存放 到 一 个 页 中 。 在 查找 记录 时 ， 可 以 根 
据 搜索 条 件 的 不 同 分 为 两 种 情况 。 
e 以 主键 为 搜索 条 件 : 这 个 查找 过 程 我 们 已 经 很 熟悉 了 ， 可 以 在 页 目录 中 使 用 二 分 法 快 
速 定位 到 对 应 的 模 ; 然后 再 过 历 该 槽 对 应 分 组 中 的 记录 ， 即 可 快速 找到 指定 的 记录 。 
e 以 其 他 列 作为 搜索 条 件 : 对 非 主键 列 的 得 找 可 就 不 这 么 幸运 了 ， 因 为 在 数据 页 中 并 没 
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有 为 非 主键 列 建立 所 谓 的 页 目录 ， 所 以 无 法 通过 二 分 法 快速 定位 相应 的 横 。 在 这 种 情 


外 下 ， 只 能 从 Infmum 记录 开始 依次 遍历 单 向 链表 中 的 每 条 记录 ， 然 后 对 比 每 条 记录 
是 否 符合 搜索 条 件 。 很 显然 ， 这 种 查找 的 效率 非常 低 。 


6.1.2 在 很 多 页 中 查找 


企 很 多 时 候 ， 表 中 存放 的 记录 都 是 非常 多 的 ， 需 要 用 到 好 多 的 数据 页 来 存储 这 些 记录 。 在 
很 多 页 中 查找 记录 可 以 分 为 两 个 步骤 ; 


e 定位 到 记录 所 在 的 页 ; 

e 从 所 在 的 页 内 查找 相应 的 记录 。 

在 没 有 索引 的 情况 下 ， 无 论 是 根据 主键 列 还 是 其 他 列 的 值 进 行 查找 ， 由 于 我 们 不 能 快速 地 
定位 到 记录 所 在 的 页 ， 所 以 只 能 从 第 一 页 沿 着 双向 链表 一 直 往 下 找 。 在 每 一 页 中 我 们 根据 刚 网 
叭 力 过 的 查找 方式 去 查找 指定 的 记录 。 因 为 要 遍历 所 有 的 数据 页 ， 所 以 这 种 方式 显然 是 超级 耗 
时 的 。 如 果 一 个 表 有 1 亿 条 记录 ， 使 用 这 种 方式 去 查找 记录 ， 估 计 要 等 到 猴 年 马 月 才能 查找 到 
省 末 。 所 以 人 们 都 在 期 盼 一 种 能 高 效 完成 搜索 的 方法 ， 索 引 “ 同 志 ” 就 要 亮相 登台 了 。 


6.2 索引 | 


为 了 故事 的 顺利 发 展 ， 我 们 先 建 一 个 表 : 


mysql> CREATE TABLE index_demo ( 


-> C4 NT 

-> c2 INT, 

-> c3 CHAR (1), 

-> PRIMARY KEY (ci1) 


-> ) ROW_FORMAT = COMPACT; 
Query OK, 0 rows affected (0.03 sec) 


这 个 新 建 的 index_demo 表 中 有 2 个 INT 类 型 的 列 、1 个 CHAR(1) 类 型 的 列 ， 而 且 我 们 规 
下 cl 列 为 主键 。 这 个 表 使 用 COMPACT 行 格式 来 实际 存储 记录 。 为 了 理解 上 的 方便 ， 我 们 简 
化 了 index_demo 表 的 行 格式 示意 图 ， 如 图 6-2 所 示 。 


record type next record cl 列 cc2 列 ”6c3 列 其 他 信息 





图 6-2 index_demo 表 的 行 格式 示意 图 


下 面 只 讲解 图 6-2 中 展示 的 这 几 个 部 分 。 


9 record_type : 记录 头 信息 的 一 项 属性 ， 表 示 记 录 的 类 型 。 其 中 ， 0 表示 普通 记录 ; 2 表 
不 Infimum 记录 ; 3 表示 Supremum 记录 ; 1 还 没 用 过 ， 等 会 再 说 。 
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@ next record : 记录 头 信 息 的 一 项 属性 ， 表 示 从 当前 记录 的 真实 数据 到 下 一 条 记录 的 真 
实数 据 的 距离 。 为 了 方便 大 家 理解 ， 我 们 会 用 篆 头 来 表明 下 一 条 记录 是 谁 。 

e 各 个 列 的 值 : 这 里 只 展示 在 index demo 表 中 的 3 个 列 ， 分 别 是 cl、c2 和 c3。 

e@ 其 他 信息 : 除了 上 述 3 种 信息 以 外 的 所 有 信息 ， 包 括 其 他 隐藏 列 的 值 以 及 记录 的 额外 信息 。 

为 了 节省 篇 幅 ， 后 文 的 示意 图 会 把 记录 中 的 “其 他 信息 ”部 分 省 略 掉 ， 因 为 它 占 地 方 ， 并 
且 也 没有 什么 观赏 效果 。 另 外 ， 我 觉得 把 记录 紧 着 看 感觉 更 好 ， 所 以 ， 记 录 格 式 示 意图 的 “其 
他 信息 ”去 掉 后 并 竖 起 来 的 效果 如 图 6-3 所 示 。 

把 一 些 记 录放 到 页 里 边 的 示意 图 如 图 6-4 所 示 。 





这 些 是 普通 的 用 户 记 录 ，record type=0 


图 6-3 竖 放 记录 的 效果 图 6-4 ”记录 放 到 页 里 边 的 示意 图 





6.2.1 一 个 简单 的 索引 方案 


回 到 正题 ， 我 们 在 根据 某 个 搜索 条 件 查 找 一 些 记录 时 ， 为 什么 要 遍历 所 有 的 数据 页 呢 ? 原 
因 是 各 个 页 中 的 记录 并 没有 规律 ， 我 们 并 不 知道 搜索 条 件 会 匹配 哪些 页 中 的 记录 ， 所 以 不 得 不 
依次 遍历 所 有 的 数据 页 。 如 果 想 快速 定位 到 需要 查找 的 记录 在 哪些 数据 页 中 ， 该 咋 办 ? 还 记得 
我 们 为 了 根据 主键 值 快 速 定位 一 条 记录 在 页 中 的 位 置 而 设立 的 页 目录 么 ? 我 们 也 可 以 想 办 法 为 
快速 定位 记录 所 在 的 数据 页 而 建立 一 个 别 的 目录 ， 在 建 这 个 目录 的 过 程 中 必须 完成 两 件 事 儿 。 

1. 下 一 个 数据 页 中 用 户 记录 的 主键 值 必须 大 于 上 一 个 页 中 用 户 记 录 的 主键 值 。 

为 了 故事 的 顺利 发 展 ， 我 们 这 里 需要 做 一 个 假设 : 每 个 数据 页 最 多 能 存放 3 条 记录 〈 实 际 上 
一 个 数据 页 非常 大 ， 可 以 存放 好 多 记录 )。 有 了 这 个 假设 之 后 ， 我 们 癌 index_ demo 表 插入 3 条 记录 : 

mysql> INSERT INTO index_demo VALUES(1, 4, 'u'), (3, 9, 'd'), (5, 3, 'y'); 


Query OK, 3 rows affected (0.01 sec) 
Records: 3 Duplicates: 0 Warnings: 0 


那么 ， 这 些 记录 已 经 按照 主键 值 的 大 小 串联 成 一 个 单 同 链表 了 ， 如 图 6-5 所 示 。 
从 图 6-5 可 以 看 出 ，index demo 表 中 的 3 条 记录 都 被 插入 到 编号 为 10 的 数据 页 中 。 此 时 
再 插入 一 条 记录 : 


mysql> INSERT INTO index demo VALUES (4, 4, 'a'); 
Query OK, 1 row affected (0.00 sec) 


< 
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因为 页 10 最 多 只 能 放 3 条 记录 ， 所 以 我 们 不 得 不 再 分 配 一 个 新 页 ， 如 图 6-6 所 示 。 





图 6-5 ”记录 组 成 的 单 向 链表 图 6-6 ”为 记录 分 配 新 页 


喷 ? 怎么 分 配 的 页 号 是 28 呀 ， 不 应 该 是 11 么 ? 再 强调 一 遍 ， 新 分 配 的 数据 页 编号 可 能 并 
不 是 连续 的 ， 也 就 是 说 我 们 使 用 的 这 些 页 在 磁盘 上 可 能 并 不 挨 着 (不 过 设计 InnoDB 的 大 报 会 
尽量 让 这 些 页 面相 邻 ， 这 个 问题 我 们 会 在 表 空间 的 章节 中 详细 只 明 )。 它 们 只 是 通过 维护 上 一 | 
页 和 下 一 页 的 编号 而 建立 了 链表 关系 。 另 外 ， 页 10 中 用 户 记 录 最 大 的 主键 值 是 5， 而 页 28 中 | 
有 一 条 记录 的 主键 值 是 4， 因 为 5>4， 所 以 这 就 不 符合 “下 一 个 数据 页 中 用 户 记录 的 主键 值 必 

须 大 于 上 一 个 页 中 用 户 记录 的 主键 值 ”的 要 求 ， 所 以 在 插入 主键 值 为 4 的 记录 时 需要 伴随 着 一 
次 记录 移动 ， 也 就 是 把 主键 值 为 5 的 记录 移动 到 页 28 中 ， 再 把 主键 值 为 4 的 记录 插入 到 页 10 
中 。 这 个 过 程 的 示意 图 如 图 6-7 所 示 。 





第 一 步 : 


将 主键 值 为 5 的 记录 移动 到 页 28 








图 6-7 为 记录 分 配 新 页 的 过 程 


这 个 过 程 表 明 ， 在 对 页 中 的 记录 进行 增删 改 操 作 的 过 程 中 ， 我 们 必须 通过 一 些 诸如 记录 移 
动 的 操作 来 始终 保证 这 个 状态 一 直 成 立 ， 下 一 个 数据 页 中 用 户 记录 的 主键 值 必须 大 于 上 一 个 页 
中 用 户 记 录 的 主键 值 。 这 个 过 程 也 可 以 称 为 页 分 列 。 

2. 给 所 有 的 页 建立 一 个 目录 项 。 

由 于 数据 页 的 编号 可 能 并 不 是 连续 的 ， 所 以 在 问 index_demo 表 中 插入 许多 条 记录 后 ， 可 
能 会 形成 如 图 6-8 所 示 的 效果 。 
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图 6-8 ”向 index_demo 表 中 插入 许多 条 记录 后 的 效果 


由 于 这 些 大 小 为 16KB 的 页 在 磁盘 上 可 能 并 不 挨 着 ， 如 果 想 从 这 么 多 页 中 根据 主键 值 快速 
定位 某 些 记录 所 在 的 页 ， 就 需要 给 它们 编制 一 个 目录 ， 每 个 页 对 应 一 个 目录 项 ， 每 个 目录 项 包 
括 下 面 两 个 部 分 : 

e 页 的 用 户 记 录 中 最 小 的 主键 值 ， 用 key 来 表示 ; 

@ 页 号 ， 用 page no 表示 。 

所 以 我 们 为 上 面 几 个 页 编制 的 目录 如 图 6-9 所 示 。 
目录 项 2 目录 项 3 目录 项 4 


| 中 


目录 项 ] 






key: 


o 





page DO : 





图 6-9 为 页 编制 目录 


以 页 28 为 例 ， 它 对 应 目录 项 2， 这 个 目录 项 中 包含 着 该 页 的 页 号 28 以 及 该 页 中 用 户 记 录 
的 最 小 主键 值 S。 我 们 只 需要 把 几 个 目录 项 在 物理 存储 器 上 连续 存储 ， 比 如 把 它们 放 到 一 个 数 
组 中 ， 就 可 以 实现 根据 主键 值 快 速 查 找 某 条 记录 的 功能 了 。 比 如 ， 我 们 想 查 找 主键 值 为 20 的 
记录 ， 上 有 具体 查找 过 程 分 两 步 。 

1. 先 从 目录 项 中 根据 二 分 法 快速 确定 出 主键 值 为 20 的 记录 在 目录 项 3 中 (因为 12 < 20 < 

209) ， 它 对 应 的 页 是 页 9。 
2. 再 根据 前 文 讲 的 在 页 中 查找 记录 的 方式 去 页 9 中 定位 具体 的 记录 。 
至 此 ， 针 对 数据 页 编制 的 简易 目录 就 搞定 了 。 刚 才 筷 记 说 了 ， 这 个 目录 有 一 个 别名 ， 称 为 索引 。 


6.2.2 InnoDB 中 的 索引 方案 
之 所 以 说 刚才 为 每 个 数据 页 制作 目录 项 的 过 程 是 一 个 简易 的 索引 方案 ， 是 因为 我 们 在 根据 
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主键 值 进行 查找 时 ， 为 了 使 用 二 分 法 快速 定位 具体 的 目录 项 ， 而 假设 所 有 目录 项 都 可 以 在 物理 
存储 器 上 连续 存储 。 但 是 这 样 做 有 下 面 几 个 问题 。 
e InnoDB 使 用 页 作为 管理 存储 空间 的 基本 单位 ， 也 就 是 最 多 只 能 保证 16KB 的 连续 存储 
空间 。 虽 然 一 个 目录 项 占用 不 了 多 大 的 存储 空间 ， 但 是 架 不 住 表 中 记录 越 来 越 多 。 此 
时 需要 非常 大 的 连续 的 存储 空间 才能 把 所 有 的 目录 项 都 放下 ， 这 对 记录 数量 非常 多 的 
表 来 说 是 不 现实 的 。 
e 我 们 时 常会 对 记录 执行 增删 改 操 作 ， 假 设 我 们 把 页 28 中 的 记录 都 删除 ， 页 28 也 就 没 
有 了 存在 的 必要 。 这 也 就 意味 着 目录 项 2 也 没有 了 存在 的 必要 ， 这 就 需要 把 目录 项 2 
后 的 目录 项 都 癌 前 移动 一 下 。 这 种 牵 一 发 而 动 全 身 的 设计 不 是 什么 好 主意 。 又 或 者 不 
移动 目录 项 2， 而 是 将 其 作为 元 余 放 在 目录 项 列表 中 ， 从 而 浪费 了 很 多 存储 空间 。 
所 以 ， 设 计 InnoDB 的 大 叔 需 要 一 种 可 以 灵活 管理 所 有 目录 项 的 方式 。 他 们 发 现 这 些 目录 
项 其 实 与 用 户 记 录 长 得 很 像 ， 只 不 过 目录 项 中 的 两 个 列 是 主键 和 页 号 而 已 ， 所 以 他 们 灵光 乍 现 ， 
复 用 了 之 前 存储 用 户 记 录 的 数据 页 来 存储 目录 项 。 为 了 与 用 户 记录 进行 区 分 ， 我 们 把 这 些 用 来 
表示 目录 项 的 记录 称 为 目录 项 记录 。 那 么 ，InnoDB 是 怎么 区 分 一 条 记录 是 普通 的 用 户 记 录 还 是 
目录 项 记录 昵 ?” 大 家 别 筷 了 记录 头 信息 中 的 record type 属性 ， 它 的 各 个 取 值 代表 的 意思 如 下 。 
e@ 0: 普通 的 用 户 记 录 。 
@ 1: 目录 项 记录 。 
@ 2: Infimum 记录 。 
8 3: Supremum 记录 。 
原来 这 个 值 为 1 的 record type 是 这 个 意思 。 我 们 把 前 面 使 用 到 的 目录 项 放 到 数据 页 中 ， 
如 图 6-10 所 示 。 


这 个 数据 页 存放 


可 国 
Cet 


-| 





图 6-10 将 目录 项 放 到 数据 页 中 的 效果 


从 图 6-10 可 以 看 出 ， 我 们 新 分 配 了 一 个 编号 为 30 的 页 来 专门 存储 目录 项 记录 。 这 里 再 次 
强调 一 下 目录 项 记录 和 普通 的 用 户 记 录 的 不 同 点 。 
e 目录 项 记录 的 record type 值 是 1， 普 通用 户 记 录 的 record type 值 是 0。 
e 目录 项 记录 只 有 主键 值 和 页 的 编号 两 个 列 ， 而 普通 用 户 记 录 的 列 是 用 户 自己 定义 的 ， 
可 能 包含 很 多 列 ， 另 外 还 有 InnoDB 自己 添加 的 隐藏 列 。 
e 我 们 在 前 面 啼 明 记录 头 信 息 时 说 过 一 个 名 为 min_rec flag 的 属性 ， 只 有 目录 项 记录 的 
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> 一 
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min rec flag 属性 才 可 能 为 1， 普通 用户 记录 的 min_rec_flag 属性 都 是 0。 
除了 上 述 几 点 外 ， 这 两 者 就 没 哈 差别 了 : 它们 用 的 是 一 样 的 数据 页 (页 面 类 型 都 是 
0x45BF， 这 个 属性 在 File Header 中 ); 页 的 组 成 结构 也 是 一 样 的 (就 是 我 们 前 面 介绍 过 的 7 个 
部 分 )， 都 会 为 主键 值 生成 Page Directory (页 目录 )， 从 而 在 按照 主键 值 进行 查找 时 可 以 使 用 
二 分 法 来 加 快 查 询 速度 。 
现在 以 查找 主键 为 20 的 记录 为 例 ， 根 据 某 个 主键 值 去 查找 记录 的 步骤 可 以 大 致 拆 分 为 两 步 。 
1. 上 先 到 存储 目录 项 记录 的 页 (也 就 是 页 30) 中 通过 二 分 法 快速 定位 到 对 应 的 目录 项 记录 ， 
因为 12 < 20 < 209， 所 以 定位 到 对 应 的 用 户 记 录 所 在 的 页 就 是 页 9。 
2. 再 到 存储 用 户 记 录 的 页 9 中 根据 二 分 法 快速 定位 到 主键 值 为 20 的 用 户 记 录 。 
虽然 说 目录 项 记录 中 只 存储 主键 值 和 对 应 的 页 号 ， 比 用 户 记 录 需 要 的 存储 空间 小 多 了 ， 但 
是 毕竟 一 个 页 只 有 16KB 大 小 ， 能 存放 的 目录 项 记录 也 是 有 限 的 。 如 果 表 中 的 数据 太 多 ， 以 至 
于 一 个 数据 页 不 足以 存放 所 有 的 目录 项 记录 ， 该 咋 办 呢 ? 
当然 是 再 多 整 一 个 存储 目录 项 记录 的 页 了 。 为 了 让 大 家 更 好 地 理解 新 分 配 一 个 存储 目录 项 
记录 的 页 的 过 程 ， 我 们 假设 一 个 存储 目录 项 记录 的 页 最 多 只 能 存放 4 条 目录 项 记录 (请 注意 这 
是 假设 ， 真 实情 况 下 可 以 存放 好 多 条 )。 如 果 此 时 再 向 图 6-10 中 插入 一 条 主键 值 为 320 的 用 户 
记录 ， 那 就 需要 分 配 一 个 新 的 存储 目录 项 记录 的 页 了， 如 图 6-11 所 示 。 





图 6-11 分 配 新 的 数据 页 


从 图 6-11 可 以 看 出 ， 在 插入 了 一 条 主键 值 为 320 的 用 户 记 录 之 后 ， 需 要 两 个 新 的 数据 页 : 

e 为 存储 该 用 户 记 录 而 新 生成 了 页 31; 

e@e 因为 存储 目录 项 记录 的 页 30 的 容量 已 满 (前面 假设 每 个 页 只 能 存储 4 条 目录 项 记录 )， 

所 以 不 得 不 需要 一 个 新 的 页 32 来 存放 页 31 对 应 的 目录 项 目录 。 
现在 因为 存储 目录 项 记录 的 页 不 止 一 个 ， 此 时 如 果 想 根据 主键 值 查找 一 条 用 户 记 录 ， 则 大 
致 需要 3 个 步骤 。 以 查找 主键 值 为 20 的 记录 为 例 ， 具 体 如 下 。 

步骤 1. 确定 存储 目录 项 记录 的 页 。 
现在 存储 目录 项 记录 的 页 有 两 个 ， 即 页 30 和 页 32。 又 因为 页 30 表示 的 目录 项 
记录 主键 值 的 范围 是 [1, 320)， 页 32 表示 的 目录 项 记录 主键 值 不 小 于 320， 所 以 
主键 值 为 20 的 记录 对 应 的 目录 项 记录 在 页 30 中 。 
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步骤 2. 通过 存储 目录 项 记录 的 页 确定 用 户 记录 真正 所 在 的 页 。 
前 文 已 经 讲 过 如 何在 一 个 存储 目录 项 记录 的 页 中 通过 主键 值 定 位 一 条 目录 项 记 
录 ， 因 此 这 里 不 再 鳌 述 。 
步骤 3. 在 真正 存储 用 户 记录 的 页 中 定位 到 具体 的 记录 。 
在 一 个 存储 用 户 记 录 的 页 中 通过 主键 值 定 位 一 条 用 户 记 录 的 方式 已 经 说 过 好 多 遍 了 。 
你 要 是 还 不 会 ， 我 就 ……- 我 就 求 你 翻 到 上 一 章 多 看 几 遍 有 关 数 据 页 结构 的 内 容 了 。 
那么 问题 来 了 ， 在 这 个 查询 步骤 的 步骤 1 中 ， 我 们 需要 定位 存储 目录 项 记录 的 页 ， 但 是 这 
些 页 在 存储 空间 中 也 可 能 不 挨 着 。 如 果 表 中 的 数据 非常 多 ， 则 会 产生 很 多 存储 目录 项 记录 的 
页 ， 那 我 们 怎么 根据 主键 值 快 速 定位 一 个 存储 目录 项 记录 的 页 呢 ? 其 实 也 简单 ， 为 这 些 存 储 目 
录 项 记录 的 页 再 生成 一 个 更 高 级 的 目录 ， 就 像 是 一 个 多 级 目录 一 样 ， 大 目录 里 嵌 套 小 目录 ， 小 
目录 里 才 是 实际 的 数据 。 所 以 ， 现 在 各 个 页 的 示意 图 如 图 6-12 所 示 。 







这 个 数据 页 存放 的 是 
表示 范围 更 广 的 目录 项 记录 ， 
它们 的 record type=1 


这 个 数据 页 存放 的 
是 普通 目录 项 记录 ， 
它们 的 record_ type=1 


图 6-12 生成 存储 更 高 级 目录 项 记录 的 数据 页 


在 图 6-12 中 ， 我 们 生成 了 一 个 存储 更 高 级 目录 项 记录 的 页 33。 这 个 页 中 的 两 条 记录 分 别 
代表 页 30 和 页 32。 如 果 用 户 记 录 的 主键 值 在 [1, 320) 之 间 ， 则 到 页 30 中 查找 更 详细 的 目录 项 
记录 ; 如 果 主 键 值 不 小 于 320， 就 到 页 32 中 查找 更 详细 的 目录 项 记录 。 随 着 表 中 记录 的 增加 ， 
这 个 目录 的 层级 会 继续 增加 ， 如 果 简 化 一 下 ， 那 么 可 以 用 图 6-13 来 描述 它 。 

大 家 看 ， 这 玩意 儿 像 不 像 一 棵 倒 过 来 的 树 呢 一 上 面 是 树 根 ， 下 面 是 树叶 ! 其 实 这 是 一 种 
组 织 数据 的 形式 ， 或 者 说 是 一 种 数据 结构 ， 它 的 名 称 是 B+ 树 。 

无 论 是 存放 用 户 记 录 的 数据 页 ， 还 是 存放 目录 项 记录 的 数据 页 ， 我 们 都 把 它们 存放 到 B+ 树 
这 个 数据 结构 中 。 我 们 也 将 这 些 数据 页 称 为 B+ 树 的 节点 。 从 图 6-12 可 以 看 出 ， 我 们 真正 的 用 
户 记 录 其 实 都 存放 在 B+ 树 最 底层 的 节点 上 ， 这 些 节点 也 称 为 叶子 节点 或 叶 节 点 。 其 余 用 来 存放 
目录 项 记录 的 节点 称 为 非 叶子 节点 或 者 内 节点 ， 其 中 B+ 树 最 上 边 的 那个 节点 也 称 为 根 节点 。 
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二 bE @ m 名 [a & 办 多 入 
图 6-13 B+ 树 


从 图 6-13 可 以 看 出 ， 一 个 B+ 树 的 节点 其 实 可 以 分 成 好 多 层 。 设 计 InnoDB 的 大 下 为 了 讨 
论 方便 ， 规 定 最 下 面 的 那 层 〈 也 就 是 存放 用 户 记 录 的 那 层 ) 为 第 0 层 ， 之 后 层级 依次 往 上 加 。 
” ”在 之 前 的 讨论 中 ， 我 们 做 了 一 个 非常 极端 的 假设 : 存放 用 户 记 录 的 页 最 多 存放 3 条 记录 ， 存 放 
目录 项 记录 的 页 最 多 存放 4 条 记录 。 其 实在 真实 环境 中 ， 一 个 页 存放 的 记录 数量 是 非常 大 的 。 
假设 所 有 存放 用 户 记 录 的 叶子 节点 所 代表 的 数据 页 可 以 存放 100 条 用 户 记 录 ， 所 有 存放 目录 项 
记录 的 内 节点 所 代表 的 数据 页 可 以 存放 1,000 条 目录 项 记录 ， 那 么 : 
e 如 果 了 B+ 树 只 有 1 层 ， 也 就 是 只 有 1 个 用 于 存放 用 户 记 录 的 节点 ， 则 最 多 能 存放 100 
条 用 户 记录 ; 
e 如 果 B+ 树 有 2 层 ， 最 多 能 存放 1,000 x 100 = 100,000 条 用 户 记 录 ; 
e 如 果 B+ 树 有 3 层 ， 最 多 能 存放 1,000 x 1,000 x 100 = 100,000,000 条 用 户 记录 ; 
e 如 果 B+ 树 有 4 层 ， 最 多 能 存放 1,000 x 1,000 x 1,000 x 100 = 100,000,000,000 条 用 户 记 
录 。( 这 么 多 的 记录 ! ) 
你 的 表 里 能 存放 100,000,000,000 条 记录 么 ? 所 以 在 一 般 情况 下 ， 我 们 用 到 的 B+ 树 都 不 
会 超过 4 层 。 这 样 一 来 ， 在 通过 主键 值 去 查找 某 条 记录 时 ， 最 多 只 需要 进行 4 个 页 面 内 的 查 
找 (查找 3 个 存储 目录 项 记录 的 页 和 1 个 存储 用 户 记 录 的 页 )。 又 因为 在 每 个 页 面 内 存在 Page 
Directory (页 目录 )， 所 以 在 页 面 内 也 可 以 通过 二 分 法 快速 定位 记录 。 : 
洽 : 我 们 在 路轨 数据 页 约 Page Header 部 分 时 介绍 过 一 个 名 为 PAGE LEVEL 的 属性 ， 
小 由 本 它 就 代表 着 这 个 数据 页 作为 节 点 在 B+ 树 中 的 层级 


1. 聚 簇 索 引 
前 面 介绍 的 B+ 树 本 身 就 是 一 个 目录 ， 或 者 说 本 身 就 是 一 个 索引 ， 它 有 下 面 两 个 特点 。 
e 使 用 记录 主键 值 的 大 小 进行 记录 和 页 的 排序 ， 这 包括 3 方面 的 含义 。 
四 页 (包括 叶子 节点 和 内 节操 〉 内 的 记录 按照 主键 的 大 小 顺序 排 成 一 个 单 向 链表 ， 页 
内 的 记录 被 划分 成 者 干 个 组 ， 每 个 组 中 主键 值 最 大 的 记录 在 页 内 的 偏 移 量 会 被 当 作 
槽 依次 存放 在 页 目录 中 (当然 Supremum 记录 比 任何 用 户 记 录 都 大 )， 我 们 可 以 在 
页 目录 中 通过 二 分 法 快速 定位 到 主键 列 等 于 某 个 值 的 记录 。 
加 各 个 存放 用 户 记 录 的 页 也 是 根据 页 中 用 户 记 录 的 主键 大 小 顺序 排 成 一 个 双向 链表 。 
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器 存放 目录 项 记录 的 页 分 为 不 同 的 层级 ， 在 同一 层级 中 的 页 也 是 根据 页 中 目录 项 记录 
的 主键 大 小 顺序 排 成 一 个 双向 链表 。 


e B+ 树 的 叶子 节点 存储 的 是 完整 的 用 户 记 录 。 所 谓 完整 的 用 户 记录 ， 就 是 指 这 个 记录 中 
存储 了 所 有 列 的 值 〈 包 括 隐 藏 列 )。 

我 们 把 具有 这 两 个 特点 的 B+ 树 称 为 聚 簇 索 引 ， 所 有 完整 的 用 户 记录 都 存放 在 这 个 聚 簇 索 
引 的 叶子 节点 处 。 这 种 聚 簇 索引 并 不 需要 我 们 在 MySQL 语句 中 显 式 地 使 用 INDEX 语句 去 创 
建 〈 后 边 会 介绍 索引 相关 的 语句 ) ，InnoDB 存储 引擎 会 自动 为 我 们 创建 聚 簇 索引 。 另 外 有 趣 
的 一 点 是 ， 在 InnoDB 存储 引擎 中 ， 聚 艇 索引 就 是 数据 的 存储 方式 〈 所 有 的 用 户 记 录 都 存储 在 | 
了 叶子 节点 )， 也 就 是 所 谓 的 “索引 即 数据 ， 数 据 即 索引 ”。 

2. 二 级 索引 


大 家 是 否 发 现 ， 聚 艇 索引 只 能 在 搜索 条 件 是 主键 值 时 才能 发 挥 作 用 ， 原 因 是 B+ 树 中 的 数 
据 都 是 按照 主键 进行 排序 的 。 如 果 我 们 想 以 别 的 列 作为 搜索 条 件 该 咋 办 呢 ? 难道 只 能 从 头 到 尾 
沿 着 链表 依次 遍历 记录 人 么 ? 

不 ! 我 们 可 以 多 建 几 棵 B+ 树 ， 并 且 不 同 B+ 树 中 的 数据 采用 不 同 的 排序 规则 。 比 如 ， 我 
们 用 c2 列 的 大 小 作为 数据 页 、 页 中 记录 的 排序 规则 ， 然 后 再 建 一 棵 B+ 树 ， 如 图 6-14 所 示 。 







这 个 数据 页 存放 的 是 
表示 范围 更 广 的 目录 项 记录 ，, 
它们 的 record_ type=1 


这 些 数据 页 存放 的 
是 普通 目录 项 记录 ， 
它们 的 record type=1 





图 6-14 新 建 B+ 树 


这 个 B+ 树 与 前 文 介绍 的 聚 艇 索引 有 几 处 不 同 。 
e 使 用 记录 c2 列 的 大 小 进行 记录 和 页 的 排序 ， 这 包括 3 方面 的 含义 。 
四 页 (包括 叶子 节点 和 内 节点 ) 内 的 记录 是 按照 c2 列 的 大 小 顺序 排 成 一 个 单身 链表 ， 
页 内 的 记录 被 划分 成 若干 个 组 ， 每 个 组 中 c2 列 值 最 大 的 记录 在 页 内 的 偏 移 量 会 被 
当 作 槽 依次 存放 在 页 目录 中 《当然 规定 Supremum 记录 比 任 何 用 户 记录 都 大 )， 我 
们 可 以 在 页 目录 中 通过 二 分 法 快速 定位 到 c2 列 等 于 某 个 值 的 记录 。 
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四 “各 个 存放 用 户 记录 的 页 也 是 根据 页 中 记录 的 c2 列 大 小 顺序 排 成 一 个 双 同 链表 。 
@@ 存放 目录 项 记录 的 页 分 为 不 同 的 层级 ， 在 同一 层级 中 的 页 也 是 根据 页 中 目录 项 记录 
的 c2 列 大 小 顺序 排 成 一 个 双向 链表 。 
e B+ 树 的 叶子 节点 存储 的 并 不 是 完整 的 用 户 记 录 ， 而 只 是 c2 列 + 主键 这 两 个 列 的 值 。 
@ 目录 项 记录 中 不 再 是 主键 + 页 号 的 搭配 ， 而 变 成 了 c2 列 + 页 号 的 搭配 。 
现在 ， 比 方 说 我 们 想 查 找 满足 搜索 条 件 c2=4 的 记录 ， 就 可 以 使 用 刚刚 建 好 的 这 棵 B+ 树 
了 。 不 过 我 们 这 里 需要 注意 一 下 ， 因 为 c2 列 并 没有 唯一 性 约束 ， 也 就 是 说 满足 搜索 条 件 c2=4 
的 记录 可 能 有 很 多 条 ， 其 实 我 们 只 需要 在 该 B+ 树 的 叶子 节点 处 定位 到 第 一 条 满足 搜索 条 件 
c2=4 的 那 条 记录 ， 然 后 沿 着 由 记录 组 成 的 单 向 链表 一 直 同 后 扫描 即 可 。 男 外 ， 各 个 叶子 节点 
组 成 了 双向 链表 ， 搜 索 完了 本 页 面 的 记录 后 可 以 很 顺利 地 跳 到 下 一 个 页 面 中 的 第 一 条 记录 ， 然 
后 继续 沿 着 记录 组 成 的 单 向 链表 向 后 扫描 。 查 找 过 程 如 下 。 
步骤 1. 确定 第 一 条 符合 c2=4 条 件 的 目录 项 记录 所 在 的 页 。 
根据 根 页 面 〈 也 就 是 页 44) 可 以 快速 定位 到 第 一 条 符合 c2=4 条 件 的 目录 项 记录 
所 在 的 页 为 页 42( 因 为 2<4<9)。 
步骤 2. 通过 第 一 条 符合 c2=4 条 件 的 目录 项 记录 所 在 的 页 面 确定 第 一 条 符合 c2=4 条 件 的 用 
户 记录 所 在 的 页 。 
根据 页 42 可 以 快速 定位 到 第 一 条 符合 条 件 的 用 户 记 录 所 在 的 页 为 页 34 或 者 页 35 
中 (因为 2<4 二 4)。 
步骤 3. 在 真正 存储 第 一 条 符合 c2=4 条 件 的 用 户 记 录 的 页 中 定位 到 具体 的 记录 。 
到 页 34 和 页 35 中 定位 到 具体 的 用 户 记 录 〈 如 果 在 页 34 中 使 用 页 目录 定位 到 第 
一 条 符合 条 件 的 用 户 记 录 ， 就 不 需要 再 到 页 35 中 使 用 页 目录 去 定位 第 一 条 符合 
条 件 的 用 户 记录 了 )。 
步骤 4. 这 个 B+ 树 的 叶子 节点 中 的 记录 只 存储 了 c2 和 cl (也 就 是 主键 ) 两 个 列 。 在 
这 个 B+ 树 的 叶子 节点 处 定位 到 第 一 条 符合 条 件 的 那 条 用 户 记 录 之 后 ， 我 们 需 
要 根据 该 记录 中 的 主键 信息 到 聚 簇 索 引 中 查找 到 完整 的 用 户 记 录 。 这 个 通过 携 
带 主键 信息 到 聚 簇 索 引 中 重新 定位 完整 的 用 户 记 录 的 过 程 也 称 为 回 表 。 然 后 再 
返回 到 这 棵 B+ 树 的 叶子 节点 处 ， 找 到 刚才 定位 到 的 符合 条 件 的 那 条 用 户 记录 ， 
并 沿 着 记录 组 成 的 单 同 链表 问 后 继续 搜索 其 他 也 满足 c2=4 的 记录 ， 每 找到 一 条 
的 话 就 继续 进行 回 表 操 作 。 重 复 这 个 过 程 ， 直 到 下 一 条 记录 不 满足 c2=4 的 这 个 
条 件 为 止 。 
为 什么 还 需要 一 次 回 表 操 作 呢 ? 直接 把 完整 的 用 户 记 录放 到 叶子 节点 不 就 好 了 么 ? 你 说 得 
对 ， 如 果 把 完整 的 用 户 记 录放 到 叶子 节点 是 可 以 不 用 回 表 ,但 是 太 占 地 方 了 一 一 相当 于 每 建立 
一 棵 B+ 树 都 需要 把 所 有 的 用 户 记录 复制 一 遍 ， 这 就 太 浪 费 存储 空间 了 。 
因为 这 种 以 非 主键 列 的 大 小 为 排序 规则 而 建立 的 B+ 树 需要 执行 回 表 操 作 才 可 以 定位 到 完 
整 的 用 户 记录 ， 所 以 这 种 B+ 树 也 称 为 二 级 索引 (Secondary Index) 或 辅助 索引 。 由 于 我 们 是 
以 c2 列 的 大 小 作为 B+ 树 的 排序 规则 ， 所 以 我 们 也 称 这 村 B+ 树 为 为 c2 列 建立 的 索引 ， 把 c2 
列 称 为 索引 列 。 二 级 索引 记录 和 聚 秘 索引 记录 使 用 的 是 一 样 的 记录 行 格式 ， 只 不 过 二 级 索引 记 
录 存 储 的 列 不 像 聚 簇 索引 记录 那么 完整 。 
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3. 联合 索引 


我 们 也 可 以 同时 以 多 个 列 的 大 小 作为 排序 规则 ， 也 就 是 同时 为 多 个 列 建立 索引 。 比 如 ， 我 
们 想 让 B+ 树 按 照 c2 和 c3 列 的 大 小 进行 排序 ， 这 里 面包 含 两 层 含义 : 

e@ 先 把 各 个 记录 和 页 按照 c2 列 进行 排序 ; 

e 在 记录 的 c2 列 相 同 的 情况 下 ， 再 采用 c3 列 进行 排序 。 

为 c2 和 c3 列 建 立 索 引 ， 示 意图 如 图 6-15 所 示 。 





这 个 数据 页 存放 的 是 
才 示 范围 更 的 目录 项 记录 
的 record type=1 


图 6-15 为 c2 和 c3 列 建立 的 索引 示意 图 


在 图 6-15 中 需要 注意 以 下 两 点 。 

e@ 每 条 目录 项 记录 都 由 c2 列 、c3 列 、 页 号 这 3 部 分 组 成 。 各 条 记录 先 按照 c2 列 的 值 进 

行 排序 ， 如 果 记 录 的 c2 列 相 同 ， 则 按照 c3 列 的 值 进行 排序 。 

e B+ 树叶 子 节点 处 的 用 户 记录 由 c2 列 、c3 列 和 主键 cl 列 组 成 。 

千 万 要 注意 的 是 ， 以 c2 和 c3 列 的 大 小 为 排序 规则 建立 的 B+ 树 称 为 联合 索引 ， 也 称 为 复合 索 
引 或 多 列 索引 。 它 本 质 上 也 是 一 个 二 级 索引 ， 它 的 索引 列 包括 c2、c3。 需 要 注意 的 是 ,“ 以 c2 和 
列 的 大 小 为 排序 规则 建立 联合 索引 ”和 “分 别 为 c2 和 c3 列 建 立 索引 ”的 表述 是 不 同 的 ， 不 同 点 如 下 。 

e@ 建立 联合 索引 只 会 建立 如 图 6-15 所 示 的 一 棵 B+ 树 。 

e 为 c2 和 c3 列 分 别 建立 索引 时 ， 则 会 分 别 以 c2 和 c3 列 的 大 小 为 排序 规则 建立 两 棵 B+ 树 。 
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6.2.3 InnoDB 中 B+ 树 索 引 的 注意 事项 


前 面 在 介绍 B+ 树 索引 的 时 候 ， 为 了 方便 理解 ， 我 们 先 把 存储 用 户 记录 的 叶子 节点 都 画 出 
来 ， 然 后 再 画 出 存储 目录 项 记录 的 内 节点 。 实 际 上 B+ 树 的 形成 过 程 是 下 面 这 样 的 。 
e@ 每 当 为 某 个 表 创 建 一 个 B+ 树 索引 〈 聚 簇 索引 不 是 人 为 创建 的 ， 它 默认 就 存在 ) 时 ， 
| 都 会 为 这 个 索引 创建 一 个 根 节 点 页 面 。 最 开始 表 中 没有 数据 的 时 候 ， 每 个 B+ 树 索引 
对 应 的 根 节点 中 既 没 有 用 户 记 录 ， 也 没有 目录 项 记录 。 
| e 随后 向 表 中 插入 用 户 记录 时 ， 先 把 用 户 记录 存储 到 这 个 根 节点 中 。 : 
e 在 根 节点 中 的 可 用 空间 用 完 时 继续 插入 记录 ， 此 时 会 将 根 节点 中 的 所 有 记录 复制 到 一 


1. 根 页 面 万 年 不 动 窜 


个 新 分 配 的 页 (比如 页 a) 中 ， 然 后 对 这 个 新 页 进行 页 分 裂 操作 ， 得 到 另 一 个 新 页 ( 比 
如 页 b)。 这 时 新 插入 的 记录 会 根据 键 值 ( 也 就 是 聚 簇 索引 中 的 主键 值 ， 或 二 级 索引 中 
对 应 的 索引 列 的 值 ) 的 大 小 分 配 到 页 a 或 页 b 中 。 根 节点 此 时 便 升级 为 存储 目录 项 记 
录 的 页 ， 也 就 需要 把 页 a 和 页 b 对 应 的 目录 项 记录 插入 到 根 节点 中 。 
在 这 个 过 程 中 ， 需 要 特别 注意 的 是 ， 一 个 B+ 树 索 引 的 根 节点 自 创建 之 日 起 便 不 会 再 移动 
(也 就 是 页 号 不 再 改变 )。 这 样 只 要 我 们 对 某 个 表 建立 一 个 索引 ， 那 么 它 的 根 节点 的 页 号 便 会 被 
记录 到 某 个 地 方 ， 后 续 凡是 noDB 存储 引擎 需要 用 到 这 个 索引 时 ， 都 会 从 那个 固定 的 地 方 取 
出 根 节点 的 页 号 ， 从 而 访问 这 个 索引 。 
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2. 内 节点 中 目录 项 记录 的 唯一 性 
我 们 知道 ， 在 B+ 树 索 引 的 内 节点 中 ， 目 录 项 记录 的 内 容 是 索引 列 加 页 号 的 搭配 ， 但 是 这  . 
个 搭配 对 于 二 级 索引 来 说 有 点 儿 不 严谨 。 还 是 以 index demo 表 为 例 进行 讲解 ， 假 设 这 个 表 中 
的 数据 如 表 6-1 所 示 。 
表 6-1 index_demo 表 中 的 数据 


WB Ii 


| | | 


后 的 B+ 树 应 该 如 图 6-16 所 示 。 
如 果 我 们 想 新 插入 一 行 记录 ， 其 中 cl、c2、c3 的 值 分 别 为 9、1、'c， 那 么 在 修改 为 c2 列 建立 
的 二 级 索引 对 应 的 B+ 树 时 ， 便 碰 到 了 个 大 问题 ， 由 于 页 3 中 存储 的 目录 项 记录 是 由 c2 列 + 页 号 构 


如 果 在 二 级 索引 中 ， 目 录 项 记录 的 内 容 只 是 索引 列 + 页 号 的 搭配 ， 那 么 为 c2 列 建立 索引 
成 的 ， 页 3 中 的 两 条 目录 项 记录 对 应 的 c2 列 的 值 都 是 1， 而 新 插入 的 这 条 记录 中 ，c2 列 的 值 也 是 1， 
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那么 这 条 新 插入 的 记录 到 底 应 该 放 到 页 4 中 ， 还 是 应 该 放 到 页 5 中 呢 ? 答案 是 : 对 不 起 ， 发 懂 了 。 
为 了 让 新 插入 的 记录 能 找到 自己 在 哪个 页 中 ， 就 需要 保证 B+ 树 同一 层 内 节点 的 目录 项 记录 除 


页 号 这 个 字段 以 外 是 唯一 的 。 所 以 二 级 索引 的 内 节点 的 目录 项 记录 的 内 容 实际 上 是 由 3 部 分 构成 的 : 
e 索引 列 的 值 ; 


e@ 主键 值 ; 
@ 页 与 。 
也 就 是 我 们 把 主键 值 也 添加 到 二 级 索引 内 节点 中 的 目录 项 记录 中 ， 这 样 就 能 保证 B+ 树 每 


一 层 节点 中 各 条 目录 项 记录 除 页 号 这 个 字段 外 是 唯一 的 ， 所 以 我 们 为 c2 列 建立 二 级 索引 后 的 
示意 图 实际 上 应 该 如 图 6-17 所 示 。 





图 6-16 为 c2 列 建立 索引 后 的 B+ 树 图 6-17 二 级 索引 内 节点 的 目录 项 记录 实际 包含 主键 值 


这 样 我 们 再 插入 记录 (9, 1, 'c) 时 ， 由 于 页 3 中 存储 的 目录 项 记录 是 由 c2 列 + 主键 + 页 号 
构成 的 ， 因 此 可 以 先 把 新 记录 的 c2 列 的 值 和 页 3 中 各 目录 项 记录 的 c2 列 的 值 进行 比较 ; 如 果 
c2 列 的 值 相同 ， 可 以 接着 比较 主键 值 。 因 为 B+ 树 同一 层 中 不 同 目录 项 记录 的 c2 列 + 主键 的 
值 肯定 是 不 一 样 的 ， 所 以 最 后 肯定 能 定位 到 唯一 的 一 条 目录 项 记录 。 

在 本 例 中 ， 最 后 确定 新 记录 应 该 插入 到 页 5 中 。 


对 于 二 级 索引 记录 来 说 ， 是 先 按照 二 级 索引 列 的 值 进行 排序 ;在 二 级 索引 列 值 相同 
、， 的 情况 下 ， 再 按照 主键 值 进 行 排序 。 所以， 为 c2 列 建立 索引 其 实 相当 于 为 (c2, cl) 列 建 。 
9: 立 了 一 个 联合 索引 。 另外， 对 于 唯一 三 级 索引 -( 当 我 们 为 某 个 列 或 列 组 合 声明 UNIQUE、 
,WE 十 ”属性 时 ， 便 会 为 这 个 列 或 列 组 合 建立 唯一 二 级 索引 ) 来 说 ， 世 可 能 会 出 现 多 条 记录 键 值 
相同 的 情况 ( 一 是 声明 为 UNIQUE 属性 的 列 可 能 存储 多 个 NULL 值 ， 二 是 我 们 后 面 要 
讲 的 MVCC 服务 )， 唯 一 二 级 索引 的 内 节点 的 目录 项 记录 也 会 包含 记录 的 主键 值 - 
3. 一 个 页 面 至 少 容纳 2 条 记录 


前 面 说 过 ， 一 棵 B+ 树 只 需要 很 少 的 层级 就 可 以 轻松 存储 数 亿 条 记录 ， 碍 询 速度 杠 杠 的 ! 
这 是 因为 B+ 树 本 质 上 就 是 一 个 大 的 多 层级 目录 ， 每 经 过 一 个 目录 时 都 会 过 滤 掉 许多 无 效 的 子 
目录 ， 直 到 最 后 访问 到 存储 真正 数据 的 目录 。 
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如 果 一 个 大 的 目录 中 只 存放 一 个 子 目 录 是 啥 效果 呢 ? 那 就 是 目录 层级 会 非常 多 ， 而 且 最 后 
那个 存放 真正 数据 的 目录 中 只 能 存放 一 条 记录 。 费 了 半天 劲 只 能 存放 一 条 真正 的 用 户 记 录 ? 去 
我 玩 ? 所 以 InnoDB 的 一 个 数据 页 至 少 可 以 存放 2 条 记录 ， 这 也 是 我 们 之 前 踪 胃 记录 行 格式 的 
时 候 说 过 的 一 个 结论 (我 们 当时 以 这 个 结论 为 基础 ， 推 导 了 表 中 只 有 一 个 列 且 该 列 在 不 发 生 洲 
出 的 情况 下 ， 最 多 能 存储 多 少 字 节 。 大 家 如 果 蕊 了 的 话 请 回 过 头 去 看 看 吧 )。 






>-。 ”其实 让 B+ 树 的 叶子 节点 只 存储 一 条 记录 ， 让 内 节点 存储 多 条 记录 也 还 2 
: 娄 生 了 树 作用 的 - 但 是 ， 设 计 InnoDB 的 大 叔 还 是 为 了 避免 dt 增长 得 过 高 ， 
小 贴 士 而 要 求 所 有 癌 据 页 都 至 少 可 以 容纳 2 条 记录 . Ns 


6.2.4 ”MylSAM 中 的 索引 方案 简介 


至 此 ， 我 们 介绍 的 都 是 InnoDB 存储 引擎 中 的 索引 方案 。 为 了 内 容 的 完整 性 ， 以 及 各 位 同学 
可 能 会 在 面试 时 过 到 这 类 问题 ， 我 们 还 是 有 必要 简单 介绍 一 下 MyISAM 存储 引擎 中 的 索引 方案 。 
我 们 知道 ， 在 InnoDB 中 索引 即 数 据 ， 也 就 是 聚 簇 索引 的 那 棵 B+ 树 的 叶子 节点 中 已 经 包含 了 
所 有 完整 的 用 户 记 录 。MyISAM 的 索引 方案 虽然 也 使 用 树 形 结构 ， 但 是 却 将 索引 和 数据 分 开 存储 。 
e 将 表 中 的 记录 按照 记录 的 插入 顺序 单独 存储 在 一 个 文件 中 〈 称 之 为 数据 文件 )。 这 个 文 
件 并 不 划分 为 者 干 个 数据 页 ， 有 多 少 记录 就 往 这 个 文件 中 塞 多 少 记录 。 这 样 一 来 ， 我 
们 可 以 通过 行 号 快速 访问 到 一 条 记录 。 
MyISAM 记录 也 需要 记录 头 信 息 来 存储 一 些 额 外 数据 。 我 们 以 前 文 噶 四 过 的 index demo 
表 为 例 ， 看 一 下 这 个 表 在 使 用 MyISAM 作为 存储 引擎 时 ， 它 的 记录 如 何在 存储 空间 中 表示 ， 
如 图 6-18 所 示 。 


-人 





图 6-18 index_demo 表 使 用 MyISAM 作为 存储 引擎 在 存储 空间 中 的 表示 


由 于 在 插入 数据 时 并 没有 刻意 按照 主键 大 小 排序 ， 所 以 我 们 不 能 在 这 些 数据 上 使 用 二 分 法 
进行 查找 。 


J a 


; 


a 
e 使 用 MyISAM 存储 引擎 的 表 会 把 索引 信息 单独 存储 到 另外 一 个 文件 中 ( 称 为 索引 文 
件 )。MyISAM 会 为 表 的 主键 单独 创建 一 个 索引 ， 只 不 ` 过 在 索引 的 叶子 节点 中 存储 的 
个 是 完整 的 用 户 记录 ， 而 是 主键 值 与 行 号 的 组 合 。 也 就 是 先 通 过 索引 找到 对 应 的 行 号 ， 
骨 通 过 行 号 去 找 对 应 的 记录 ! 
这 一 点 与 InnoDB 是 完全 不 相同 的 。 在 InnoDB 存储 引擎 中 ， 我 们 只 需要 根据 主键 值 对 聚 
秘 索 引进 行 一 次 查找 就 能 找到 对 应 的 记录 ， 而 在 MyISAM 中 却 需要 进行 一 次 回 表 操 作 ， 这 也 
意味 着 MyISAM 中 建立 的 索引 相当 于 全 部 都 是 二 多 级 索引 ! 
e 如 果 有 必要 ， 我 们 也 可 以 为 其 他 列 分 别 建立 索引 或 者 建立 联合 索引 ， 其 原理 与 InnoDB 


中 的 索引 差不多 ， 只 不 过 在 叶子 节点 处 存储 的 是 相应 的 列 上 + 行 号 。 这 些 索引 也 全 部 都 
是 二 级 索引 。 













.了 录 格 式 (Compressed ) 等 上 文 用 到 的 index_ 0 2 
~ -记录 占用 的 存储 空间 是 国定 的 这 样 就 可 以 使 用 行 号 轻松 算出 
外 地址 信 移 量 了 但 是 变 长 沁 录 格式 就 不行 了 ，MyISAM 会 直接 在 和 
小 邮 士 。 条 记录 在 数据 文件 中 的 地 址 偏 移 量 。 由 此 可 以 看 出 ， MYISA Rn 

的 ， 因 为 它 是 拿 着 地 址 偏 移 量 直接 到 文件 中 取 数据 ， 而 InnoDB 是 ii 
去 聚 禾 索 引 中 找 记录 ， 虽 然 说 也 不 慢 ， 但 还 是 比 不 上 直接 用 地 进去 访 
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这 里 只 是 非常 简要 地 介绍 了 MyISAM 的 索引 ， pp 以 独立 


成 草 了 。 这 里 只 是 希望 大 家 理解 InnoDB 中 的 “索引 即 数据 ， 数 据 即 索 引 ”， 而 在 MyISAM 中 
却 是 “索引 是 索引 ， 数 据 是 数据 ”， 


6.2.5 MySQL 中 创建 和 删除 索引 的 语句 


前 文 光顾 着 嘴 鹃 索引 的 原理 了 ， 我 们 如 何 使 用 MySQL 语句 建立 这 种 索引 呢 ? InnoDB 和 
MyISAM 会 目 动 为 主键 或 者 带 有 UNION 属性 的 列 建立 索引 。 如 果 想 为 其 他 的 列 建立 索 引 ， 就 
需要 我 们 显 式 地 指明 了 。 为 啥 不 自动 为 每 个 列 都 建立 索引 呢 ? 别 忘 了 ， 每 建立 一 个 索引 都 会 建 
立 一 棵 B+ 树 ， 而 且 每 增 、 删 、 改 一 条 记录 都 要 维护 各 个 记录 、 数 据 页 的 排序 关系 ， 这 是 很 费 
性 能 和 存储 空间 的 。 

我 们 可 以 在 创建 表 的 时 候 ， 指 定 需 要 建立 索引 的 单个 列 或 者 建立 联合 索引 的 多 个 列 ; 


CREATE TALBE 表 名 ( 
各 个 列 的 信息 
(KEY|INDEX) 索引 名 (需要 被 索引 的 单个 列 或 多 个 列 ) 





) 





其 中 ，KEY 和 INDEX 是 同义词 ， 任 意 选用 一 个 就 可 以 。 
我 们 也 可 以 在 修改 表 结 构 的 时 候 添加 索引 : 


ALTER TABLE 表 名 ADD (INDEX|KEY) 索引 名 (需要 被 索引 的 单个 列 或 多 个 列 ) ; 
还 可 以 在 修改 表 结 构 的 时 候 删 除 索 引 : 
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ALTER TABLE 表 名 DROP (INDEX|KEY) 索引 名 ; 


比如 ， 我 们 想 在 创建 index_demo 表 时 就 为 c2 和 c3 列 添加 一 个 联合 索引 ， 可 以 这 么 写 建 
表 语 句 : 
CREATE TABLE index_demo (人 
Cl INT, 
c2 INT， 
c3 CHAR (1), 
PRIMARY KEY (cl1), 
INDEX idx c2 c3 (c2, c3) 
); 
在 这 个 建 表 语句 中 ， 创 建 的 索引 的 名 称 是 idx_ c2_ c3。 索 引 的 名 字 尽 管 可 以 随意 起 ， 不 过 
还 是 建议 在 命名 时 能 以 idx_ 为 前 级， 后 面 跟 着 需要 建立 索引 的 列 名 ， 且 多 个 列 名 之 间 用 下 划 
线 分 隔 开 。 
如 果 我 们 想 删 除 这 个 索引 ， 可 以 这 么 与 : 


ALTER TABLE index demo DROP INDEX idx c2 c3; 


6.3 ”总结 
InnoDB 存储 引擎 的 索引 是 一 棵 B+ 树 ， 完 整 的 用 户 记 录 都 存储 在 B+ 树 第 0 层 的 叶子 节点 ; 
其 他 层次 的 节点 都 属于 内 节点 ， 内 节点 中 存储 的 是 目录 项 记录 。 
InnoDB 的 索引 分 为 两 种 。 
e 聚 簇 索 引 : 以 主键 值 的 大 小 作为 页 和 记录 的 排序 规则 ， 在 叶子 节点 处 存储 的 记录 包含 
了 表 中 所 有 的 列 。 
e 二 级 索引 : 以 索引 列 的 大 小 作为 页 和 记录 的 排序 规则 ， 在 叶子 节点 处 存储 的 记录 内 容 
是 索引 列 + 主键。 
InnoDB 存储 引擎 的 B+ 树 根 节 点 自 创 建 之 日 起 就 不 再 移动 。 
在 二 级 索引 的 B+ 树 内 节点 中 ， 目 录 项 记录 由 索引 列 的 值 、 主 键 值 和 页 号 组 成 。 
一 个 数据 页 至 少 可 以 容纳 2 条 记录 。 
MyISAM 存储 引擎 的 数据 和 索引 分 开 存储 ， 这 种 存储 引擎 的 索引 全 部 都 是 二 级 索引 ， 在 
叶子 节点 处 存储 的 是 列 + 行 号 (对 于 定 长 记录 格式 的 记录 来 说 )。 
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击 面 的 章节 非常 详细 地 路 轨 了 InnoDB 存储 引擎 的 B+ 树 索引 ， 我 们 必须 熟悉 下 面 这 些 结论 ， 


每 个 索引 都 对 应 一 棵 B+ 树 。B+ 树 分 为 好 多 层 ， 最 下 边 一 层 是 叶子 节点 ， 其 余 的 是 内 
斑点 。 所 有 用 户 记 录 都 存储 在 B+ 树 的 叶子 节点 ， 所 有 目录 项 记录 都 存储 在 内 节点 
InnoDB 存储 引擎 会 自动 为 主键 建立 聚 久 索引 〈 如 果 没 有 显 式 指定 主键 或 者 没有 声明 不 允许 
仓储 NULL 的 UNIQUE 键 ， 它 会 自动 添加 主键 )， 聚 簇 索 引 的 叶子 节点 包含 完整 的 用 户 记录 。 
我 们 可 以 为 感 兴趣 的 列 建立 二 级 索引 ， 二 级 索引 的 叶子 节点 包含 的 用 户 记录 由 索引 列 
和 主键 组 成 。 如 果 想 通过 二 级 索引 查找 完整 的 用 户 记录 ， 需 要 执行 回 表 操作 ， 也 就 是 
企 通 过 二 级 索引 找到 主键 值 之 后 ， 再 到 聚 簇 索引 中 查找 完整 的 用 户 记录 

B+ 树 中 的 每 层 节点 都 按照 索引 列 的 值 从 小 到 大 的 顺序 排序 组 成 了 双向 链表 ， 而 且 每 个 
中 户 的 记录 《无 论 是 用 户 记 录 还 是 目录 项 记录 ) 都 按照 索引 列 的 值 从 小 到 大 的 顺序 形 
成 了 一 个 单 向 链表 。 如 果 是 联合 索引 ， 则 页 面 和 记录 先 按照 索引 列 中 前 面 的 列 的 值 排 
序 ; 如 果 该 列 的 值 相同 ， 再 按照 索引 列 中 后 面 的 列 的 值 排序 。 比 如 ， 我 们 对 列 cz 和 c3 
建立 了 联合 索引 idx_c2_c3(c2, c3)， 那 么 该 索引 中 的 页 面 和 记录 就 先 按照 c2 列 的 值 进 
行 排序 ， 如 果 c2 列 的 值 相同 ， 再 按照 c3 列 的 值 排序 。 

通过 索引 查找 记录 时 ， 是 从 B+ 树 的 根 节点 开始 一 层 一 层 向 下 搜索 的 。 由 于 每 个 页 面 (无论 
年 由 节点 页 面 还 是 叶子 节点 页 面 ) 中 的 记录 都 划分 成 了 若干 个 组 ， 每 个 组 中 索引 列 值 最 大 
的 记录 在 页 内 的 偏 移 量 会 被 当 作 槽 依次 存放 在 页 目录 中 当然， 规定 Supremum 记录 比 任何 
用 户 记 录 都 大 )， 因 此 可 以 在 页 目录 中 通过 二 分 法 快速 定位 到 索引 列 等 于 某 个 值 的 记录 。 


如 有 大 家 在 阅读 上 述 结论 时 哪怕 有 一 点 疑惑 ， 那 么 下 面 的 内 容 就 不 适合 你 ， 请 回 过 头 去 反 


复 疯 读 前 面 的 章节 。 
/1.1 B+ 树 索引 示意 图 的 简化 


为 了 故事 的 顺利 发 展 ， 我 们 需要 先 建立 一 个 表 : 


CREATE TABLE single table ( 


id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR (100), 

key2 INT， 

key3 VARCHAR (100), 

key_partl VARCHAR(100), 
key_part2 VARCHAR (100) ， 
key_part3 VARCHAR (100), 
common_field VARCHAR (100), 
PRIMARY KEY (id), 

KEY idx keyl (keyl) ， 
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UNIQUE KEY uk key2 (key2), 

KEY idx key3 (key3), 

KEY idx key part (key partl, key part2, key_part3) 
) Engine=InnoDB CHRRSET=utf8; 


我 们 为 这 个 single_table 表 建 立 了 1 个 聚 簇 索 引 和 4 个 二 级 索引 ， 分 别 是 : 
为 id 列 建立 的 聚 簇 索 引 ; 
为 keyl 列 建 立 的 idx keyl 二 级 索引 ; 
为 key2 列 建立 的 uk-key2 二 级 索引 ， 而 且 该 索引 是 唯一 二 级 索引 ; 
为 key3 列 建 立 的 idx key3 二 级 索引 ; 
为 key partl、key par2、key part3 列 建立 的 idx_ key part 二 级 索引 ， 这 也 是 一 个 联合 索引 。 
然后 需要 为 这 个 表 插 入 10,000 行 记录 。 除 id 列 外 ， 其 余 的 列 插入 随机 值 就 好 了 。 具 体 的 
插入 语句 这 里 就 不 写 了 ， 大 家 可 以 自己 写 个 程序 插入 (id 列 是 自 增 主 键 列 ， 不 需要 手动 插入 )。 
这 个 表 会 在 后 面 章节 中 频繁 用 到 ， 大 家 需要 留意 。 
为 了 方便 大 家 理解 ， 第 6 章 把 B+ 树 的 完整 结构 画 了 出 来 ， 包 插 它 的 内 节点 和 叶子 节点 ， 
以 及 各 个 节点 中 的 记录 。 不 过 我 们 现在 已 经 掌握 了 B+ 树 的 基本 原理 ， 知 道 了 B+ 树 其 实 是 一 
个 “ 矮 矮 的 大 胖子 ”， 并 且 学 习 了 如 何 利 用 B+ 树 快速 地 定位 记录 。 所 以 ， 是 时 候 简化 一 下 B+ 
树 的 示意 图 了 。 比 如 我 们 可 以 把 single_table 表 的 聚 簇 索引 示意 图 简化 为 如 图 7-1 所 示 的 样子 。 
在 图 7-1 中 ， 我 们 把 聚 簇 索 引 对 应 的 复杂 的 B+ 树 结构 进行 了 极度 精简 。 可 以 看 到 ， 图 中 忽略 
掉 了 页 的 结构 ， 直 接 把 所 有 的 叶子 节点 中 的 记录 都 放 在 一 起 展示 。 方 便 起 见 ， 我 们 后 面 把 聚 簇 索引 
叶子 节点 中 的 记录 称 为 聚 簇 索 引 记 录 。 虽 然 图 7-1 很 简陋 ， 但 还 是 突出 了 聚 簇 索 引 的 一 个 非常 重要 
的 特点 : 聚 簇 索引 记录 是 按照 主键 值 由 小 到 大 的 顺序 排序 的 。 当 然 ， 为 了 追求 视觉 上 的 极致 简洁 ， 
图 7-1 中 的 “其 他 列 ” 也 可 以 略 去 ， 只 需要 保留 id 列 即 可 。 再 次 简化 后 的 B+ 树 示意 图 如 图 7-2 所 示 。 
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id 值 增长 方向 id 值 增长 方向 
图 7-1 简化 后 的 聚 簇 索引 示意 图 图 7-2 ”再 次 简化 后 的 聚 簇 索引 示意 图 

好 了 ， 不 能 再 简化 了 ， 再 简化 就 要 把 id 列 也 删 去 了 ， 这 样 就 只 剩 一 个 三 角形 了 ， 那 就 真 
乾 输 了 。 

通过 聚 徐 索引 对 应 的 B+ 树 ， 我 们 可 以 很 容易 地 定位 到 主键 值 等 于 某 个 值 的 聚焦 索引 记录 。 
比如 我 们 想 通 过 这 个 B+ 树 定 位 到 id 值 为 1438 的 记录 ， 那 么 示意 图 就 如 图 7-3 所 示 。 

下 面 以 二 级 索引 idx_key1 为 例 ， 画 出 二 级 索引 简化 后 的 B+ 树 示意 图 ， 如 图 7-4 所 示 。 

在 图 74 中 ， 我 们 在 二 级 索引 idx keyl 对 应 的 B+ 树 中 保留 了 叶子 节点 的 记录 ， 这 些 记 录 包 括 
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keyl 列 以 及 id 列 。 这 些 记 录 是 按照 keyl 列 的 值 由 小 到 大 的 顺序 排序 的 。 如 果 keyl 列 的 值 相同 ， 则 
按照 这 列 的 值 进行 排序 。 方 便 起 见 ， 我 们 之 后 就 把 二 级 索引 叶子 节点 中 的 记录 称 为 二 级 索引 记录 。 





1438 


d 


聚 簇 案 引 示意 图 各 


去 


id 值 增 长 方向 key1 值 增长 方向 

图 7-3 定位 id 值 为 1438 的 记录 的 示意 图 图 7-4 二 级 索引 jidx keyl 简化 后 的 B+ 树 示意 图 

如 果 想 查找 keyl 值 等 于 某 个 值 的 二 级 索引 记录 ， 那 么 通过 idx_ keyl 对 应 的 B+ 树 ， 可 以 很 容 
多 地 定位 到 第 一 条 keyl 列 的 值 等 于 某 个 值 的 二 级 索引 记录 ， 然后 沿 着 记录 所 在 的 单 向 链表 向 后 扫 
描 即 可 。 比 如 我 们 想 通 过 这 棵 B+ 树 定位 到 keyl 值 为 abc' 的 第 一 条 记录 ， 则 示意 图 如 图 7-5 所 示 。 















idx_key1 索 引 示意 图 


key1 列 
id 列 


图 7-5 定位 keyl 值 为 'abc' 的 第 一 条 记录 时 的 示意 图 


7.2 索引 的 代价 


现在 大 家 应 该 熟悉 了 B+ 树 索引 的 原理 。 本 章 的 主题 是 嘴 切 如 何 更 好 地 使 用 索引 。 虽 然 索 
引 征 个 好 东西 ， 但 不 能 肆意 创建 。 在 介绍 如 何 更 好 地 使 用 索引 之 前 ， 有 必要 先 了 解 一 下 使 用 索 
引 的 代价 一 一 它 在 空间 和 时 间 上 都 会 “ 拖 后 腿 ” 

e 至 间 上 的 代价 

这 个 是 显而易见 的 ， 因 为 每 建立 一 个 索引 ， 都 要 为 它 建立 一 棵 B+ 树 。 每 一 棵 B+ 树 的 每 
一 个 节点 都 是 一 个 数据 页 。 一 个 数据 页 默认 会 占用 16KB 的 存储 空间 ， 而 一 棵 很 大 的 B+ 树 由 
许多 数据 页 组 成 ， 这 将 占用 很 大 的 一 片 存储 空间 。 
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e 时 间 上 的 代价 

每 当 对 表 中 的 数据 进行 增删 改 操作 时 ， 都 需要 修改 各 个 B+ 树 索 引 。 而 且 我 们 讲 过 ，B+ 
树 中 的 每 层 节 点 都 按照 索引 列 的 值 从 小 到 大 的 顺序 排序 组 成 了 双向 链表 。 无 论 是 叶子 节点 中 的 
记录 还 是 内 节点 中 的 记录 (也 就 是 无 论 是 用 户 记录 还 是 目录 项 记录 )， 都 按照 索引 列 的 值 从 小 
到 大 的 顺序 形成 了 一 个 单 向 链表 。 而 增删 改 操作 可 能 会 对 节点 和 记录 的 排序 造成 破坏 ， 所 以 存 
储 引擎 需要 额外 的 时 间 进 行 页 面 分 裂 、 页 面 回收 等 操作 ， 以 维护 节点 和 记录 的 排序 。 如 果 建 立 
了 许多 索引 ， 每 个 索引 对 应 的 B+ 树 都 要 进行 相关 的 维护 操作 ， 这 能 不 给 性 能 拖 后 腿 么 ? 

另外 还 有 一 点 就 是 在 执行 查询 语句 前 ， 首 先 要 生成 一 个 执行 计划 。 一 般 情况 下 ， 一 条 查询 
语句 在 执行 过 程 中 最 多 使 用 一 个 二 级 索引 (当然 也 有 例外 ， 这 将 在 第 10 章 详 细 踪 鹃 )， 在 生 
成 执行 计划 时 需要 计算 使 用 不 同 索 引 执行 查询 时 所 需 的 成 本 ， 最 后 选取 成 本 最 低 的 那个 索引 执 
行 查询 〈 关 于 如 何 计算 查询 的 成 本 ， 将 在 第 12 章 详 细 路 归 )。 此 时 如 果 建 了 太 多 索引 ， 可 能 会 
导致 成 本 分 析 过 程 耗 时 太 多 ， 从 而 影响 查询 语句 的 执行 性 能 。 

所 以 ， 在 一 个 表 中 建立 的 索引 越 多 ， 占 用 的 存储 空间 也 就 越 多 ， 在 增删 改 记录 或 者 生成 执 
行 计划 时 性 能 也 就 越 差 。 为 了 建立 又 好 又 少 的 索引 ， 我 们 得 先 了 解 索引 在 查询 执行 期 间 到 底 是 
如 何 发 挥 作用 的 。 


ee 


7.3 应 用 B+ 树 率 引 
7.3.1 扫描 区 间 和 边界 条 件 


对 于 某 个 查询 来 说 ， 最 简单 粗暴 的 执行 方案 就 是 扫描 表 中 的 所 有 记录 ， 判 断 每 一 条 记录 是 否 符 
合 搜索 条 件 。 如 果 符 合 ， 就 将 其 发 送 到 客户 端 ， 否 则 就 跳 过 该 记录 。 这 种 执行 方案 也 称 为 全 表 扫描 。 
对 于 使 用 ImnoDB 存储 引擎 的 表 来 说 ， 全 表 扫 描 意 味 着 从 聚 簇 索引 第 一 个 叶子 节点 的 第 一 条 记录 开 
始 ， 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 最 后 一 个 叶子 节点 的 最 后 一 条 记录 。 虽 然 全 表 扫 描 是 
一 种 很 笨 的 执行 方案 ， 但 却 是 一 种 万 能 的 执行 方案 ,所 有 的 查询 都 可 以 使 用 这 种 方案 来 执行 。 

前 文 讲 到 ， 可 以 利用 B+ 树 查 找 索 引 列 值 等 于 某 个 值 的 记录 ， 这 样 可 以 明显 减少 需要 扫描 的 
记录 数量 。 由 于 B+ 树叶 子 节点 中 的 记录 是 按照 索引 列 值 由 小 到 大 的 顺序 排序 的 ， 所 以 只 扫描 某 
个 区 间或 者 茶 些 区 间 中 的 记录 也 可 以 明显 减少 需要 扫描 的 记录 数量 。 比 如 下 面 这 个 查询 语句 ; 


SELECT * FROM single table WHERE id >= 2 AND id <= 100; 


这 个 语句 其 实 是 想 查 找 id 值 在 [2, 100] 区 间 中 的 所 有 聚 徐 索引 记录 。 我 们 可 以 通过 聚 簇 索 引 对 应 
的 B+ 树 快速 地 定位 到 id 值 为 2 的 那 条 聚 簇 索 引 记 录 ， 然 后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 
直到 某 条 聚 簇 索引 记录 的 id 值 不 在 [2, 100] 区 间 中 为 止 〈 即 id 值 不 再 符合 id<=100 条 件 )。 

与 扫描 全 部 的 聚 秘 索引 记录 相 比 ， 扫 描 id 值 在 [2, 100] 区 间 中 的 记录 已 经 很 大 程度 地 减少 
了 需要 扫描 的 记录 数量 ， 所 以 提升 了 查询 效率 。 简 便 起 见 ， 我 们 把 这 个 例子 中 待 扫描 记录 的 
id 值 所 在 的 区 间 称 为 扫描 区 间 ， 把 形成 这 个 扫描 区 间 的 搜索 条 件 (也 就 是 id >= 2 AND id <= 
100) 称 为 形成 这 个 扫描 区 间 的 边界 条 件 。 
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注 - “其 站 对 于 全 胡 扫 搞 来 庆 ， 相当 于 扫 拉 a 人 在 c ,te 
小 由 十。 说 全 表 相 棋 对 应 的 扫描 区 间 是 (=, 池 呈 ) 





对 于 下 面 这 个 查询 语句 : 
| 
SELECT * FROM single table WHERE key2 IN (1438, 6328) OR (key2 >= 38 AND key2 <= 79); 


当然 可 以 直接 使 用 全 表 扫 描 的 方式 执行 该 查询 ， 但 是 我 们 发 现 该 查询 的 搜索 条 件 涉 及 key2 列 ， 
而 我 们 又 正好 为 key2 列 建立 了 uk_key2 索引 。 如 果 使 用 uk key2 索引 执行 这 个 查询 ， 则 相当 
于 从 下 面 的 3 个 扫描 区 间 中 获取 二 级 索引 记录 。 

e [1438, 1438] : 对 应 的 边界 条 件 就 是 key2 IN (1438) 。 

e [6328, 6328] : 对 应 的 边界 条 件 就 是 key2 IN (6328) 。 

e@ [38, 79] : 对 应 的 边界 条 件 就 是 key2 >= 38 AND key2 <= 79。 

这 些 扫描 区 间 对 应 到 数 轴 上 时 ， 如 图 7-6 所 示 。 


OC 


38 79 1438 6328 key2 
图 7-6 扫描 区 间 在 数 轴 上 的 显示 
方便 起 见 ， 我 们 把 像 [1438, 1438]、[6328, 6328] 这 样 只 包含 一 个 值 的 扫描 区 间 称 为 单 点 扫描 区 
间 ， 把 [38, 79] 这 样 包 含 多 个 值 的 扫描 区 间 称 为 范围 扫描 区 间 。 男 外 ， 由 于 我 们 的 查询 列表 是 #， 
也 就 是 需要 读 取 完整 的 用 户 记录 ， 所 以 从 上 述 扫描 区 间 中 每 获取 一 条 二 级 索引 记录 ， 就 需要 根据 
该 二 级 索引 记录 的 id 列 的 值 执行 回 表 操作 ， 也 就 是 到 豪 簇 索引 中 找到 相应 的 聚 簇 索 引 记 录 。 
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其 实 我 们 不 仅仅 可 以 使 用 uk ‘key2 执行 上 述 查 询 ， , 
idx_key_part 执行 上 述 查 询 . 
描 区 间 来 减少 需要 扫描 的 记 
级 索引 记录 .针对 获取 到 的 : 区 一 条 二 多 3 
@: 户 记录 。 我 们 也 可 以 说 ， 使 用 We yl 所 村 对 的 
小 贴 士 “， 这样 虽然 行 得 通 ， 但 我 们 图 啥 呢 ? 杂交 半生 的 全 
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并 不 是 所 有 的 搜索 条 件 都 可 以 成 为 边界 条 件 ， 比如 这 个 查询 语句 ， 

SELECT * FROM single table WHERE keyl < 'a' AND key3 > 'z' AND common_field = 'abc'; 

e 如 果 使 用 idx_keyl 执行 查询 ， 那 么 相应 的 扫描 区 间 就 是 〈(- < , 'a' )， 形 成 该 扫描 区 间 
的 边界 条 件 就 是 keyl <'a'。 而 key3 > 'z AND common field = 'abc' 就 是 普通 的 搜索 条 件 ， 
这 些 普通 的 搜索 条 件 需 要 在 获取 到 idx keyl 的 二 级 索引 记录 后 ， 再 执行 回 表 操作 ， 在 
获取 到 完整 的 用 户 记录 后 才能 去 判断 它 它们 是 否 成 芯 。 

e@ 如 果 使 用 idx key3 执行 了 查询 ， 那 么 相应 的 扫描 区 间 就 是 (z, +  )， 形 成 该 扫描 区 间 
的 边界 条 件 就 是 key3 > 'z'。 而 keyl <'a' AND common field ='abc' 就 是 普通 的 搜索 条 件 ， 
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这 些 普 通 的 搜索 条 件 需 要 在 获取 到 jidx key3 的 二 级 索引 记录 后 ， 再 执行 回 表 操作 ， 在 
获取 到 完整 的 用 户 记 录 后 才能 去 判断 它们 是 否 成 立 。 

从 上 述 描述 中 可 以 看 到 ， 在 使 用 某 个 索引 执行 查询 时 ， 关 键 的 问题 就 是 通过 搜索 条 件 找 出 
合适 的 扫描 区 间 ， 然 后 再 到 对 应 的 B+ 树 中 扫描 索引 列 值 在 这 些 扫描 区 间 的 记录 。 对 于 每 个 扫 
描 区 间 来 说 ， 仅 需要 通过 B+ 树 定位 到 该 扫描 区 间 中 的 第 一 条 记录 ， 然 后 就 可 以 沿 着 记录 所 在 
的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 不 符合 形成 该 扫描 区 间 的 边界 条 件 为 止 。 其 实 对 于 B+ 树 
索引 来 说 ， 只 要 索引 列 和 常数 使 用 =、<=>、IN、NOT IN、IS NULL、 IS NOT NULL、>、<、 
>=、<=、BETWEEN、!= (也 可 以 写成 <>) 或 者 LIKE 操作 符 连 接 起 来 ， 就 可 以 产生 所 谓 的 
扫描 区 间 。 不 过 有 下 面 几 点 需要 注意 。 

e IJN 操作 符 的 语义 与 若干 个 等 值 匹 配 操作 符 (=) 之 间 用 OR 连接 起 来 的 语义 是 一 样 的 ， 

都 会 产生 多 个 单 点 扫描 区 间 。 比 如 下 面 这 两 个 语句 的 语义 效果 是 一 样 的 : 


SELECT * FROM single table WHERE key2 IN (1438, 6328); 
SELECT * FROM single table WHERE key2 = 1438 OR key2 = 6328; 


e != 产 生 的 扫描 区 间 比 较 有 趣 ， 也 容易 被 大 家 忽略 ， 比 如 : 


SELECT * FROM single table WHERE keyl != 'a'; 


此 时 使 用 idx keyl 执行 查询 时 对 应 的 扫描 区 间 就 是 (一 ,'a) 和 ('a',+ co )。 

e LIKE 操作 符 比较 特殊 ， 只 有 在 匹配 完整 的 字符 串 或 者 匹配 字符 串 前 级 时 才 产 生 合 适 的 

扫描 区 间 。 

比较 字符 串 的 大 小 其 实 就 相当 于 依次 比较 每 个 字符 的 大 小 。 字 符 串 的 比较 过 程 如 下 所 示 。 

@ 先 比较 字符 串 的 第 一 个 字符 ; 第 一 个 字符 小 的 那个 字符 串 就 比较 小 。 

四 ”如果 两 个 字符 串 的 第 一 个 字符 相同 ， 再 比较 第 二 个 字符 ; 第 二 个 字符 比较 小 的 那个 
字符 串 就 比较 小 ; 

@ 如 果 两 个 字符 串 的 前 两 个 字符 都 相同 ， 那 就 接着 比较 第 三 个 字符 ; 依 此 类 推 。 

对 于 某 个 索引 列 来 说 ， 字 符 串 前 级 相同 的 记录 在 由 记录 组 成 的 单 向 链表 中 肯定 是 相 邻 的 。 
比如 我 们 有 一 个 搜索 条 件 是 keyl LIKE 'a%'， 对 于 二 级 索引 idx keyl 来 说 ， 所 有 字符 串 前 级 为 'a' 
的 二 级 索引 记录 肯定 是 相 邻 的 。 这 也 就 意味 着 我 们 只 要 定位 到 keyl 值 的 字符 串 前 缀 为 'a' 的 第 
一 条 记录 ， 就 可 以 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 二 级 索引 记录 的 字符 串 前 缀 不 
为 'a' 为 止 ， 如 图 7-7 所 示 。 

很 显然 ，keyl LIKE 'a%' 形成 的 扫描 区 间 相 当 于 ['a', 'b')。 

前 面 介绍 的 几 个 例子 的 搜索 条 件 都 比较 简单 ， 在 使 用 某 个 索引 执行 查询 时 ， 我 们 可 以 很 容 
易 识别 出 对 应 的 扫描 区 间 ， 以 及 形成 该 扫描 区 间 的 边界 条 件 。 在 日 常 的 工作 中 ， 一 个 查询 语句 
中 的 WHERE 子 句 可 能 有 很 多 个 小 的 搜索 条 件 ， 这 些 搜索 条 件 使 用 AND 或 者 OR 操作 符 连接 
起 来 。 虽 然 大 家 都 知道 这 两 个 操作 符 的 作用 ， 但 这 里 还 是 要 再 强调 一 遍 。 

e condl AND cond2 : 只 有 当 condl 和 cond2 都 为 TRUE 时 ， 整 个 表达 式 才 为 TRUE。 

@ condl OR cond2: 只 要 condl 或 者 cond2 中 有 一 个 为 TRUE， 整个 表达 式 就 为 TRUE。 

在 我 们 执行 一 个 查询 语句 时 ， 首 先 需 要 找 出 所 有 可 用 的 索引 以 及 使 用 它们 时 对 应 的 扫描 区 
间 。 下 面 我 们 来 看 一 下 怎么 从 包含 若干 个 AND 或 OR 的 复杂 搜索 条 件 中 提取 出 正确 的 扫描 区 间 。 
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keyl LIKE ‘a%’ 


idx_key1 案 引 示意 图 


key1 列 


id 列 








keyl 值 增长 方向 
图 7-7 定位 keyl 值 的 字符 串 前 缀 为 'a 时 的 示意 图 


1， 所 有 搜索 条 件 都 可 以 生成 合适 的 扫描 区 间 的 情况 


企 使 用 某 个 索引 执行 查询 时 ， 有 时 每 个 小 的 搜索 条 件 都 可 以 生成 一 个 合适 的 扫描 区 间 来 减 
少 需 要 扫描 的 记录 数量 。 比 如 下 面 这 个 查询 语句 : 

SELECT * FROM single table WHERE key2 > 100 AND key2 > 200; 
在 使 用 uk_key2 执行 查询 时 ，key2 > 100 和 key2 > 200 这 两 个 小 的 搜索 条 件 都 可 以 形成 一 个 扫 
摘 区 间 。 由 于 这 两 个 小 的 搜索 条 件 是 使 用 AND 操作 符 连接 的 ， 所 以 最 终 的 扫描 区 间 就 是 对 这 
两 个 小 的 搜索 条 件 形成 的 扫描 区 间 取 交集 后 的 结果 。 取 交集 的 过 程 如 图 7-8 所 示 。 





key2 
图 7-8 ”根据 搜索 条 件 取 区 间 交 集 
key2> 100 和 key2> 200 的 交集 当然 就 是 key2> 200 了 ， 也 就 是 说 上 面 这 个 查询 语句 使 用 尿 key2 
索引 执行 查询 时 对 应 的 扫描 区 间 就 是 〈200,+ ce)， 形 成 该 扫描 区 间 的 边界 条 件 就 是 key2> 200。 
我 们 再 看 一 下 使 用 OR 操作 符 将 多 个 搜索 条 件 连接 在 一 起 的 情况 。 来 看 下 面 这 个 查询 语句 : 


SELECT * FROM single table WHERE key2 > 100 OR key2 > 200; 


OR 意味 着 需要 取 各 个 扫描 区 间 的 并 集 。 取 并 集 的 过 程 如 图 7-9 所 示 。 





100 200 key2 


图 7-9 根据 搜索 条 件 取 区 间 并 集 
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也 就 是 说 上 面 这 个 查询 语句 在 使 用 uk key2 索引 执行 查询 时 ， 对 应 的 扫描 区 间 就 是 (100， 
+ cc)， 形 成 扫描 区 间 的 条 件 就 是 key2 > 100。 


2. 有 的 搜索 条 件 不 能 生成 合适 的 扫描 区 间 的 情况 
在 使 用 某 个 索引 执行 查询 时 ， 有 时 某 个 小 的 搜索 条 件 不 能 生成 合适 的 扫描 区 间 来 减少 需要 
扫描 的 记录 数量 。 比 如 下 面 这 个 查询 语句 : 


SELECT * FROM single table WHERE key2 > 100 AND common field = 'abc'; 


在 使 用 uk key2 执行 查询 时 ， 很 显然 搜索 条 件 key2 > 100 可 以 形成 扫描 区 间 (100, + ce )。 但 
是 ， 由 于 uk key2 的 二 级 索引 记录 并 不 按照 common_ field 列 进行 排序 〈 其 实 uk _key2 二 级 索 
引 记录 中 压根 儿 就 不 包含 common field 列 ) ， 所 以 仅 赁 搜索 条 件 common field = 'abc' 并 不 能 减 
少 需要 扫描 的 二 级 索引 记录 数量 。 也 就 是 说 此 时 该 搜索 条 件 生成 的 扫描 区 间 其 实 就 是 (- = ， 
+ co )。 由 于 key2 > 100 和 common field = 'abc' 这 两 个 小 的 搜索 条 件 是 使 用 AND 操作 符 连接 起 
来 的 ， 所 以 对 (100, + cc) 和 (- co ,+ ce) 这 两 个 扫描 [区间 取 交 集 后 得 到 的 结果 自然 是 〈100， 
+ ce )。 也 就 是 说 在 使 用 uk key2 执行 上 述 查 询 时 ， 最 终 对 应 的 扫描 区 间 就 是 (100, + ce)， 形 
成 该 扫描 区 间 的 条 件 就 是 key2 > 100。 

其 实 ， 在 使 用 uk key2 执行 查询 时 ， 在 寻找 对 应 的 扫描 区 间 的 过 程 中 ， 搜 索 条件 common 
field = 'abc' 没 起 到 任何 作用 ， 我 们 可 以 直接 把 common field = 'abc' 搜索 条 件 蔡 换 为 TRUE 
(TRUE 对 应 的 扫描 区 间 也 是 〈- = ,+ ce )) ， 如 下 所 示 : 


SELECT * FROM Single table WHERE key2 > 100 AND TRUE; 
在 化 简 之 后 如 下 所 示 : 
SELECT * FROM single table WHERE key2 > 100; 


也 就 是 说 上 面 那 个 查询 语句 在 使 用 uk_key2 执行 查询 时 对 应 的 扫描 区 间 就 是 (100, + ~。)。 
再 来 看 一 下 使 用 OR 操作 符 的 情况 。 查 询 语句 如 下 所 示 : 


SELECT * FROM single table WHERE key2 > 100 OR common field = 'abc'; 

同 理 ， 我 们 把 使 用 不 到 uk_key2 索引 的 搜索 条 件 蔡 换 为 TRUE， 如 下 所 示 : 
SELECT * FROM single table WHERE key2 > 100 OR TRUE; 

接着 化 简 ， 结 果 如 下 所 示 : 


SELECT * FROM single table WHERE TRUE; 


可 见 ， 如 果 强 制 使 用 uk_key2 执行 查询 ， 对 应 的 扫描 区 间 就 是 (- ~ ,+ ce )， 也 就 是 需 
要 扫描 uk_key2 的 全 部 二 级 索引 记录 ， 并 且 对 于 获取 到 的 每 一 条 二 级 索引 记录 ， 都 需要 执行 回 
表 操 作 。 这 个 代价 肯定 要 比 执行 全 表 扫 描 的 代价 都 大 。 在 这 种 情况 下 ， 我 们 是 不 考虑 使 用 uk 
key2 来 执行 查询 的 。 

3. 从 复杂 的 搜索 条 件 中 找 出 扫描 区 间 

有 些 查 询 语句 的 搜索 条 件 可 能 特别 复杂 ， 光 是 找 出 在 使 用 某 个 索引 执行 查询 时 对 应 的 扫描 
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区 间 就 挺 麻烦 的 。 比 如 下 面 这 个 查询 语句 ， 


SELECT * FROM single table WHEREP 
(keyl > 'xyz+ AND key2 = 748 ) OR 
(keyl < 'abc' AND keyl > 'lmn') OR 
(keyl LIKE '%suf' AND keyl > 'zzz' AND (key2 < 8000 OR common field = 'abc')) ; 


额 滴 个 神 ! 这 个 搜索 条 件 简直 绝 了 ， 个 过 大 家 不 要 被 复杂 的 表象 迷 住 了 双眼 ， 我 们 按 下 面 
的 套路 分 析 一 下 。 
e 首先 查看 WHERE 子 句 中 的 搜索 条 件 都 涉及 了 哪些 列 ， 以 及 我 们 为 哪些 列 建立 了 索引 。 
这 个 查询 语句 的 搜索 条 件 涉及 了 key1、key2、common field 这 3 个 列 ， 其 中 keyl 列 有 
普通 的 二 级 索引 idx keyl， key2 列 有 唯一 二 级 索引 uk key2。 
® 对 于 那些 可 能 用 到 的 索引 ， 分 析 它 们 的 扫描 区 间 。 
假设 使 用 idx_key1 执行 查询 
我 们 需要 把 那些 不 能 形成 合适 扫描 区 间 的 搜索 条 件 暂 时 移 除 挤 。 移 除 方法 也 很 简单 ， 直 接 
把 它们 替换 为 TRUE 就 好 了 。 上 面 的 查询 中 除了 有 关 key2 和 common field 列 的 搜索 条 件 不 能 形 
成 合适 的 扫描 区 间 外 ，keyl LIKE '%suf 形成 的 扫描 区 间 是 (- ce ,+ co)， 所 以 也 需要 将 它 替 换 
为 TRUE。 把 这 些 不 能 形成 合适 扫描 区 间 的 搜索 条 件 蔡 换 为 TRUE 之 后 ， 搜索 条 件 如 下 所 示 : 


(keyl > 'xyz' AND TRUE ) OR (keyl < 'abc' AND keyl > 'lmn') OR (TRUE AND keyl > 'zzz' AND 
(TRUE OR TRUE)) 


对 这 个 搜索 条 件 进行 化 简 ， 结 果 如 下 所 示 : 


(keyl > 'xyz') OR (keyl < ‘'abc' AND keyl > 'lmn') OR (keyl > 'zzz') 


下 面 苦 换 掉 永远 为 TRUE 或 RATS 的 条 件 。 由 于 keyl < abc' AND keyl > dmn' 永远 为 FALSE， 


所 以 上 面 的 搜索 条 件 可 以 写成 下 面 这 样 : 


(keyl > 'xyz') OR (keyl > 'zzz') 


羽 续 化 简 。 由 于 keyl > xyz 和 keyl > 'zzz 之 间 是 使 用 OR 操作 符 连 接 起 来 的 ， 这 意味 着 
要 取 并 集 ， 所 以 最 终 的 化 简 结果 就 是 keyl > xyz。 也 就 是 说 ， 最 初 的 查询 语句 如 果 使 用 idx 
keyl 索引 执行 查询 ， 则 对 应 的 扫描 区 间 就 是 (xyz', + ce )。 也 就 是 需要 把 满足 keyl > xyz' 条 
件 的 所 有 二 级 索引 记录 都 取出 来 ， 针对 获取 到 的 每 一 条 二 级 索引 记录 ， 都 要 用 它 的 主键 值 再 执 
行 回 表 操作 ， 在 得 到 完整 的 用 户 记录 之 后 再 使 用 其 他 的 搜索 条 件 进行 过 滤 。 

假设 使 用 uk_key2 执行 查询 

我 们 需要 把 那些 不 能 形成 合适 扫描 区 间 的 搜索 条 件 暂 时 使 用 TRUE 替换 掉 ， 其 中 有 关 
keyl 和 common_field 的 搜索 条 件 都 需要 被 替换 掉 ， 蔡 换 后 的 结果 如 下 所 示 : 


(TRUE AND key2 = 748 ) OR (TRUE AND TRUE) OR (TRUE AND TRUE AND (key2 < 8000 OR TRUE) ) 


吸 呀 呀 ! key2 < 8000 OR TRUE 的 结果 肯定 是 TRUE 呀 ， 也 就 是 说 化 简 之 后 的 搜索 条 件 
成 下 面 这 样 了 : 


key2 = 748 OR TRUE 
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这 个 化 简 之 后 的 结果 就 更 简单 了 : 
TRUE 


这 个 结果 也 就 意味 着 如 果 要 使 用 uk _key2 索引 执行 查询 ， 则 对 应 的 扫描 区 间 就 是 〈- = 
+ ce )， 也 就 是 需要 扫描 uk _key2 的 全 部 二 级 索引 记录 ， 针 对 获取 到 的 每 一 条 二 级 索引 记录 还 
要 进行 回 表 操作 。 这 不 是 得 不 偿 失 么 ! 所 以 在 这 种 情况 下 是 不 会 使 用 uk _key2 索引 的 。 
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4. 使 用 联合 索引 执行 查询 时 对 应 的 扫描 区 间 

联合 索引 的 索引 列 包含 多 个 列 ，B+ 树 中 的 每 一 层 页 面 以 及 每 个 页 面 中 的 记录 采用 的 排序 
规则 较为 复杂 。 以 single table 表 的 idx key part 联合 索引 为 例 ， 它 采用 的 排序 规则 如 下 所 示 : 

e@ 先 按照 key partl 列 的 值 进行 排序 ; 

e@ 在 key partl 列 的 值 相同 的 情况 下 ， 再 按照 key part2 列 的 值 进 行 排序 ; 

@ 在 key partl 和 key_part2 列 的 值 都 相同 的 情况 下 ， 再 按照 key_part3 列 的 值 进行 排序 。 

我 们 来 画 一 下 idx key part 索引 的 示意 图 ， 如 图 7-10 所 示 。 


key_part1 列 
key_part2 列 
key_part3 列 


id 列 





key_partl、key_part2、key part3 值 增 长 方向 
7-10 idx key part 索引 的 示意 图 
对 于 查询 语句 Ql 来 说 : 


Ql: SELECT * FROM single table WHERE key partl = 'a'; 


由 于 二 级 索引 记录 是 先 按照 key_partl 列 的 值 排序 的 ， 所 以 符合 key partl = 'a' 条 件 的 所 有 记录 
肯定 是 相 邻 的 。 我 们 可 以 定位 到 符合 key partl = 'a' 条 件 的 第 一 条 记录 ， 然 后 沿 着 记录 所 在 的 
单身 链表 问 后 扫描 《如 果 本 页 面 中 的 记录 扫描 完了 ， 就 根据 叶子 节点 的 双向 链表 找到 下 一 个 页 
面 中 的 第 一 条 记录 ， 继 续 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 。 我 们 之 后 就 不 强调 叶子 节点 的 双 
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同 链表 了 )， 直 到 某 条 记录 不 符合 key partl = 条 件 为 止 ( 当 然 ， 对 于 获取 到 的 每 一 条 二 级 索 
站 记录 都 要 执行 回 表 操作 ， 这 里 就 不 展示 了 )， 如 图 7-11 所 示 。 


key partl='a 









idx_key] part 案 引 示意 图 


key_partl、key_part2、key_part3 值 增长 方向 
图 7-11 定位 符合 key_partl ='a' 条 件 的 记录 的 过 程 
也 束 是 说 ， 如 果 使 用 idx_key_part 索引 执行 查询 语句 Q1， 对 应 的 扫描 区 间 就 是 ['a', 'a]， 
形成 这 个 扫描 区 间 的 边界 条 件 就 是 key partl = 'a'。 


对 于 查询 语句 Q2 来 说 : 


Q2: SELECT * FROM Single_table WHERE key_partl = 'a' AND key_part2 = 'b'; 


由 于 二 级 索引 记录 是 先 按照 key partl 列 的 值 排序 的 ， 在 key partl 列 的 值 相 等 的 情况 下 再 按照 
key_part2 列 进行 排序 ， 所 以 符合 key partl = a AND key_part2 = b' 条 件 的 二 级 索引 记录 肯定 是 相 
分 的 。 我 们 可 以 定位 到 符合 key part1='a' AND key_par2='b' 条 件 的 第 一 条 记录 ， 然 后 沿 着 记录 所 
在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 不 符合 key _partl=a' 条 件 或 者 key par2='b' 条 件 为 止 〈 当 然 ， 
对 于 获取 到 的 每 一 条 二 级 索引 记录 都 要 执行 回 表 操作 ， 这 里 就 不 展示 了 )， 如 图 7-12 所 示 。 

也 就 是 说 ， 如 果 使 用 idx_key part 索引 执行 查询 语句 Q2， 可 以 形成 扫描 区 间 [('a', '"b)， (Ca'， 
了 )]， 形 成 这 个 扫描 区 间 的 边界 条 件 就 是 key partl =,a AND key part2 = 'b'。 
9 、 ”part2 ='b' 条 件 的 记录 开始 ， 到 最 后 一 条 符合 key partl ='ar AND key part2 ='b 条 件 的 记 : 
小 贴 士 ” 录 为 止 的 所 有 二 级 索引 记录 。 i: 
对 于 查询 语句 Q3 来 说 : 


Q3: SELECT * FROM single table WHERE key partl = 'a' AND key_part2 = 'b' AND key part3 = 'c'; 


由 于 二 级 索引 记录 是 先 按 照 key_partl 列 的 值 排序 的 ， 在 key partl 列 的 值 相 等 的 情况 下 再 按照 
key_part2 列 进行 排序 ， 在 key partl 和 key_part2 列 的 值 都 相等 的 情况 下 ， 再 按照 key part3 列 
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进行 排序 ， 所 以 符合 key partl = 'a' AND key part2 = b' AND key part = c 条 件 的 二 级 索引 记 
录 肯 定 是 相 邻 的 。 我 们 可 以 定位 到 符合 key partl='a' AND key_part2='b' AND key_part3='c 条 件 
的 第 一 条 记录 ， 然 后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 不 符合 key partl='a' 条 
件 或 者 key part2='b' 条 件 或 者 key_part3='c' 条 件 为 止 〈 当 然 ， 对 于 获取 到 的 每 一 条 二 级 索引 记 
录 都 要 执行 回 表 操作 )。 这 里 就 不 再 画 示意 图 了 。 


idx key _ part 索引 示意 图 ] 人 


key_part2 列 







key_partl= "a 
AND key part2= b' 


key_part3 列 


id 列 


key partl、key part2、key_part3 值 增长 方向 
图 7-12 ”定位 到 符合 key partl='a' AND key_part2='b' 条 件 的 记录 的 过 程 
如 果 使 用 idx key part 索引 执行 查询 语句 Q3， 可 以 形成 扫描 区 间 [(a', b', 'c), (a, bb，'c)]， 
形成 这 个 扫描 区 间 的 边界 条 件 就 是 key partl ='a'AND key part2 ='b'AND key_part3 = 


对 于 查询 语句 Q4 来 说 : 
Q4: SELECT * FROM single table WHERE key partl < 'a'; 


由 于 二 级 索引 记录 是 先 按照 key partl 列 的 值 进行 排序 的 ， 所 以 符合 key partl < 'a' 条 件 的 所 
有 记录 肯定 是 相 令 的。 我 们 可 以 定位 到 符合 key partl < 'a' 条 件 的 第 一 条 记录 (其 实 就 是 idx_ 
key part 索引 第 一 个 叶子 节点 的 第 一 条 记录 )， 然 后 沿 着 记录 所 在 的 单 册 链表 疝 后 扫描 ， 直 到 
某 条 记录 不 符合 key partl < 'a' 条 件 为 止 〈 当 然 ， 对 于 获取 到 的 每 一 条 二 级 索引 记录 都 要 执行 
回 表 操 作 ， 这 里 就 不 展示 了 ) ， 如 图 7-13 所 示 。 

也 就 是 说 ， 如 果 使 用 idx key part 索引 执行 查询 语句 Q4， 可 以 形成 扫 拉 区间 (- 2 ，a))， 
形成 这 个 扫描 区 间 的 边界 条 件 就 是 key_partl <'a 

对 于 查询 语句 Q5 来 说 : 

05: SELECT * FROM single table WHERE key partl = 'a' AND key part2 > 'a' AND key part2 < 'd'; 


由 于 二 级 索引 记录 是 先 按照 key_partl 列 的 值 进行 排序 的 ， 在 key_partl 列 的 值 相 等 的 情况 下 再 按 
照 key part2 列 进行 排序 。 也 就 是 说 ， 在 符合 key_partl = 'a' 条 件 的 二 级 索引 记录 中 ， 这 些 记 录 是 


ni As -” 
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按照 key_part2 列 的 值 排序 的 ， 那么 此 时 符合 key partl ='a AND key par2 >'a AND key part?2 <'d' 
条 件 的 二 级 索引 记录 肯定 是 相 邻 的 。 我 们 可 以 定位 到 符合 key partl=a AND key_part2 > 'a' AND 
key_part2 < 'd' 条件 的 第 一 条 记录 ， 然后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直到 某 条 记录 不 
从 合 key part1='a' 条 件 或 者 key_part2 > 'a' 条 件 或 者 key part2 < 中 条 件 为 止 ( 当 然 ， 对 于 获取 
到 的 每 一 条 二 级 索引 记录 都 要 执行 回 表 操 作 ， 这 里 就 不 展示 了 ) ， 如 图 7-14 所 示 。 





key partl< 'a' 






| 
一 pe ww ls 


key_partl 、key_part2、key_part3 值 增 长 方向 
图 7-13 ”定位 符合 key partl <'a 条 件 的 记录 的 过 程 






AND key part2 > 'a 
AND key part2 <'d' 


和 


key parti 列 


key part2 列 


key_part3 列 


id 列 





key partl、 key part2、 key part3 值 增长 方向 
图 7-14 ”定位 符合 key_partl='a' AND key part2> 'a! AND key_part2 < 'd' 条 件 的 记录 的 过 程 
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也 就 是 说 ， 如 果 使 用 idx_ key part 索引 执行 查询 语句 Q5， 可 以 形成 扫描 区 间 (('a', 'a")， 
(‘a', 'd"))， 形 成 这 个 扫描 区 间 的 边界 条 件 就 是 key_partl = 'a' AND key_part2 > 'a AND key_ 
part2 < 'd'。 


对 于 查询 语句 Q6 来 说 : 
Q6: SELECT * FROM single table WHERE key part2 = 'a'}; 


由 于 二 级 索引 记录 不 是 直接 按照 key part2 列 的 值 排序 的 ， 所 以 符合 key_part2 = 'a' 的 二 级 索引 
记录 可 能 并 不 相 邻 ， 也 就 意味 着 我 们 不 能 通过 这 个 key part2 = 'a' 搜索 条 件 来 减少 需要 扫描 的 
记录 数量 。 在 这 种 情况 下 ， 我 们 是 不 会 使 用 idx_ key part 索引 执行 查询 的 。 


对 于 查询 语句 Q7 来 说 : 
07: SELECT * FROM single table WHERE key partl = ‘a' RND key part3 = 'c'; 


由 于 二 级 索引 记录 是 先 按照 key_partl 列 的 值 排 序 的 ， 所 以 符合 key_partl = 'a' 条 件 的 二 级 索 
引 记 录 肯 定 是 相 邻 的 。 但 是 对 于 符合 key partl = 'a' 条 件 的 二 级 索引 记录 来 说 ， 并 不 是 直接 
按照 key part3 列 进行 排序 的 ， 也 就 是 说 我 们 不 能 根据 搜索 条 件 key_part3 = 'c' 来 进一步 减少 
需要 扫描 的 记录 数量 。 那 么 ， 如 果 使 用 idx_key_part 索引 执行 查询 ， 可 以 定位 到 符合 key_ 
part1='a' 条 件 的 第 一 条 记录 ， 然 后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 不 符合 
key partl = 'a' 条件 为 止 。 所 以 在 使 用 idx_key_part 索引 执行 查询 语句 Q7 的 过 程 中 ， 对 应 
的 扫描 区 间 其 实 是 ['a', 'a]， 形 成 该 扫描 区 间 的 边界 条 件 是 key_partl = 'a'， 与 key_part3 = 'C' 
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对 于 查询 语句 Q8 来 说 : 
Q8: SELECT * FROM single_ table WHERE key partl < '‘'b' AND key part2 = 'a'; 


由 于 二 级 索引 记录 是 先 按照 key partl 列 的 值 排序 的 ， 所 以 符合 key partl < b' 条 件 的 二 级 索 
引 记录 肯定 是 相 邻 的 。 但 是 对 于 符合 key partl < 'b' 条 件 的 二 级 索引 记录 来 说 ， 并 不 是 直接 
按照 key part2 列 排序 的 。 也 就 是 说 ， 我 们 不 能 根据 搜索 条 件 key_part2 = 'a' 来 进一步 减少 
需要 扫描 的 记录 数量 。 那 么 ， 如 果 使 用 idx key part 索引 执行 查询 ， 可 以 定位 到 符合 key_ 
part1<'b' 条 件 的 第 一 条 记录 (其 实 就 是 idx_key_part 索引 第 一 个 叶子 节点 的 第 一 条 记录 )， 
然后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 不 符合 key partl < 'b' 条 件 为 止 ， 如 
图 7-15 所 示 。 
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key_partl 、key_part2、key_part3 值 增 长 方向 
图 7-15 ”定位 符合 key_part1<'b' AND key part2 ='a' 条 件 的 记录 的 过 程 


所 以 在 使 用 idx_key_part 索引 执行 查询 语句 Q8 的 过 程 中 ， 对 应 的 扫描 区 间 其 实 是 [- ~ ， 
了 )， 形 成 该 扫描 区 间 的 边界 条 件 是 key_partl <'b'， 与 key part2 ='a' 无 关 。 


对 于 查询 语句 Q9 来 说 : 
Q9: SELECT * FROM single table WHERE key partl <= 'b' AND key part2 = 'a'; 


很 显然 Q8 和 Q9 非常 像 ， 但 是 在 涉及 key partl 的 条 件 时 ， Q8 中 的 条 件 是 key_partl < 'b'，Q9 
中 的 条 件 是 key_partl1 <= 'b'。 很 显然 符合 key_partl <= 'b' 条 件 的 二 级 索引 记录 是 相 邻 的 。 但 
证 对 于 符合 key_partl <= 'b' 条件 的 二 级 索引 记录 来 说 ， 并 不 是 直接 按照 key part2 列 排序 
的 。 但 是 (这 里 说 的 是 “但 是 ”)， 对 于 符合 key_partl = 'b' 的 二 级 索引 记录 来 说 ， 是 按照 
key_part2 列 的 值 排序 的 。 那么 在 确定 需要 扫描 的 二 级 索引 记录 的 范围 时 ， 当 二 级 索引 记录 
的 key_partl 列 值 为 'b' 时 ， 也 可 以 通过 key_part2 = 'a' 条 件 减少 需要 扫描 的 二 级 索引 记录 范围 。 
也 融 是 说 ， 当 扫描 到 不 符合 key_partl = 'b' AND key_part2 = 'a' 条 件 的 第 一 条 记录 时 ， 就 可 以 
结束 扫描 ， 而 不 需要 将 所 有 key partl 列 值 为 'b' 的 记录 扫描 完 。 这 个 过 程 的 示意 图 如 图 7-16 
所 示 。 

也 束 是 说 ， 如 果 使 用 idx_key part 索 引 执行 查询 语句 Q9， 可 以 形成 扫描 区 间 ((- ce ,-c<),(b' 


32)]， 形 成 这 个 扫描 区 间 的 边界 条 件 就 是 key_partl <= 'b' AND key part2 = 'a'。 而 在 执行 查询 话 


避 Q8 时 ， 我 们 必须 将 所 有 符合 key_part1 < 'b' 的 记录 都 扫描 完 ， key_part2 = 'a' 条 件 在 查询 语 
司 Q8 中 并 不 能 起 到 减少 需要 扫描 的 二 级 索引 记录 范围 的 作用 。 
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key_partl 列 
key_part2 列 
key part3 列 


id 列 





key partl、key part2、key part3 值 增长 方向 
图 7-16 ”定位 符合 key partl <= 由 ' AND key part2 = 'a' 条 件 的 记录 的 过 程 


7.3.2 索引 用 于 排序 


我 们 在 编写 查询 语句 时 ， 经 常 需要 使 用 ORDER BY 子 句 对 查询 出 来 的 记录 按照 某 种 规则 
进行 排序 。 在 一 般 情况 下 ， 我 们 只 能 把 记录 加 载 到 内 存 中 ， 然 后 再 用 一 些 排序 算法 在 内 存 中 对 | 
这 些 记录 进行 排序 。 有 时 查询 的 结果 集 可 能 太 大 以 至 于 无 法 在 内 存 中 进行 排序 ， 此 时 就 需要 暂 
时 借助 磁盘 的 空间 来 存放 中 间 结 果 ， 在 排序 操作 完成 后 再 把 排 好 序 的 结果 集 返 回 客户 端 。 

在 MySQL 中 ， 这 种 在 内 存 或 者 磁盘 中 进行 排序 的 方式 统称 为 文件 排序 (filesort)。 但 是 ， 
如 果 ORDER BY 子 句 中 使 用 了 索引 列 ， 就 有 可 能 省 去 在 内 存 或 磁盘 中 排序 的 步骤 。 

比如 下 面 这 个 简单 的 查询 语句 : 


SELECT * FROM single table ORDER BY key partl, key part2, key part3 LIMIT 10; 


这 个 查询 语句 的 结果 集 需 要 先 按 照 key_partl 值 排 序 ; 如 果 记 录 的 key partl 值 相 同 ， 再 按照 
key part2 值 排序 ， 如 果 记 录 的 key partl 和 key part2 值 都 相同 ， 再 按照 key part3 值 排序 。 大 
家 可 以 回 过 头 去 看 看 图 7-10， 该 二 级 索引 的 记录 本 身 就 是 按照 上 述 规则 排 好 序 的 ， 所 以 我 们 可 
以 从 第 一 条 idx_ key_ part 二 级 索引 记录 开始 ， 沿 着 记录 所 在 的 单身 链表 疝 后 扫描 ， 取 10 条 二 
级 索引 记录 即 可 。 当 然 ， 针 对 获取 到 的 每 一 条 二 级 索引 记录 都 执行 一 次 回 表 操作 ， 在 获取 到 完 
整 的 用 户 记 录 之 后 发 送 给 客户 端 就 好 了。 这样 是 不 是 就 变 得 简单 多 了 ! 还 省 去 了 我 们 给 10000 
条 记录 排序 的 时 间 一 一 索引 就 是 这 么 厉害 ! 





i “请 注意 ,本 例 的 查询 语句 中 加 了 LIMIT 于 句 ， 这 是 因为 如 果 不 限 制 需要 获取 的 记 
全 本， 人为 大 和 二 综合 关于 
小 贴 士 回 表 操作 造成 的 影响 ， 我 们 稍 后 再 详细 啼 忠 . 
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1. 使 用 联合 索引 进行 排序 时 的 注意 事项 


在 使 用 联合 索引 时 ， 需 要 注意 一 点 ; ORDER BY 子 句 后 面 的 列 的 顺序 也 必须 按照 索引 列 的 
顺序 给 出 ， 如 果 给 出 ORDER BY key part3， key_part2, keypartl 的 顺序 ， 则 无 法 使 用 B+ 树 索引 。 
之 所 以 颠倒 排序 列 顺序 就 不 能 使 用 索引 ， 原因 还 是 联合 索引 中 页 面 和 记录 的 排序 规则 是 固定 
的 ， 也 就 是 先 按照 key_partl 值 排 序 ， 如 果 记 录 的 key_partl 值 相同 ， 再 按照 key_part2 值 排序 ; 
如 果 记 录 的 key_partl 和 key_part2 值 都 相同 ， 再 按照 key_part3 值 排序 。 如 果 ORDER BY 子 句 
的 内 容 是 ORDER BY key_part3, key_part2, keypart1， 那 就 要 求 先 按照 key_part3 值 排 序 ， 如 果 
记录 的 key_part3 值 相同 ， 再 按照 key_part2 值 排序 ， 如 果 记 录 的 key_part3 和 key part2 值 都 相 
同 ， 再 按照 key_partl 值 排序 。 这 显然 是 冲突 的 。 

同 理 ,ORDER BY key_partl 和 ORDER BY key _partl, key part2 这 些 仅 对 联合 索引 的 索引 
列 中 左边 连续 的 列 进行 排序 的 形式 ， 也 是 可 以 利用 B+ 树 索引 的 。 为 外 ， 当 联合 索引 的 索引 列 
左边 连续 的 列 为 常量 时 ， 也 可 以 使 用 联合 索引 对 右边 的 列 进行 排序 。 比如 下 面 这 个 查询 : 


SELECT * FROM sinle table WHERE key_partl = 'a AND key_part2 = 'b' ORDER BY key_part3 LIMIT 10; 


这 个 查询 语句 能 使 用 联合 索引 进行 排序 ， 原 因 是 key_partl 值 为 'a'、key part2 值 为 'b' 的 
二 级 索引 记录 是 按照 key part3 列 的 值 进行 排序 的 。 

2. 不 可 以 使 用 索引 进行 排序 的 几 种 情况 

(1) ASC、DESC 混用 


对 于 使 用 联合 索引 进行 排序 的 场景 ， 我 们 要 求 各 个 排序 列 的 排序 规则 是 一 致 的 ， 也 就 是 要 
么 各 个 列 都 是 按照 ASC (升序 ) 规则 排序 ， 要 么 都 是 按照 DESC (降序) 规则 排序 。 
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e 如 果 记 录 的 key_partl 值 相同 ， 再 按照 key_part2 值 升序 排序 ; 

e 如果 记录 的 key_partl 和 key_part2 值 都 相同 ， 再 按照 key_part3 值 升序 排序 。 
如 果 查 询 语句 中 各 个 排序 列 的 排序 规则 是 一 致 的 ， 比如 下 面 这 两 种 情况 。 

® ORDER BY key_partl, key part2 LIMIT 10 


我 们 可 以 直接 从 联合 索引 最 左边 的 那 条 二 级 索引 记录 开始 ， 向 右 读 10 条 二 级 索引 记录 
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就 可 以 了 。 
® ORDER BY key partl DESC, key part2 DESC LIMIT 10 
我 们 可 以 直接 从 联合 索引 最 右边 的 那 条 二 级 索引 记录 开始 ， 向 左 读 10 条 二 级 索引 记录 
就 可 以 了 。 
如 果 查 询 的 需求 是 先 按 照 key partl 列 升序 排序 ， 再 按照 key_part2 列 降序 排序 ， 比 如 下 面 
这 个 查询 语句 : 


SELECT * FROM single table ORDER BY key partl, key part2 DESC LIMIT 10; 


此 时 ， 如 果 使 用 联合 索引 执行 具有 排序 需求 的 上 述 查 询 ， 过 程 就 是 下 面 这 样 。 
e 先 找到 联合 索引 最 左边 的 那 条 二 级 索引 记录 的 key_partl 值 (将 其 称 为 min_value)， 然 
后 向 右 找到 key partl 值 等 于 min_value 的 所 有 二 级 索引 记录 ， 然 后 再 从 key_partl 值 
等 于 min value 的 最 后 一 条 二 级 索引 记录 开始 ， 向 左 找 10 条 二 级 索引 记录 。 
可 是 我 们 怎么 知道 key partl 值 等 于 min _ value 的 二 级 索引 记录 有 多 少 条 呢 ? 我 们 没有 办 
法 知道 ， 只 能 “ 傻 傻 地 ”一 直 疝 右 扫描 。 
@ 如 果 kye partl 值 等 于 min _ value 的 二 级 索引 记录 共有 nn 条 (上 且 n<10)， 那 就 得 找到 
key_partl 值 为 min value 的 最 后 一 条 二 级 索引 记录 的 下 一 条 二 级 索引 记录 。 假 设 该 二 
级 索引 记录 的 key partl 值 为 min value2， 那 就 得 再 找到 key_partl 值 为 min_value2 的 
所 有 二 级 索引 记录 ， 然 后 再 从 key partl 值 等 于 min value2 的 最 后 一 条 二 级 索引 记录 
开始 ， 向 左 找 10-n 条 记录 。 
@ 如 果 key partl 值 为 min valuel 和 min_value2 的 二 级 索引 记录 还 不 够 10 条 ， 那 就 该 怎 
么 办 呢 ? 我 觉得 你 懂 的 …… 
这 样 查询 累 不 累 ? 累 ! 这 种 需要 较为 复杂 的 算法 从 索引 中 读 取 记录 的 方式 ， 不 能 高 效 地 使 
用 索引 。 所 以 在 这 种 情境 下 是 不 会 使 用 联合 索引 执行 排序 操作 的 。 
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(2) 排序 列 包含 非 同一 个 索引 的 列 
有 时 用 来 排序 的 多 个 列 不 是 同一 个 索引 中 的 ， 这 种 情况 也 不 能 使 用 索引 进行 排序 。 比 如 下 
面 这 个 查询 语句 : 


SELECT * FROM single table ORDER BY keyl, key2 LIMIT 10; 


对 于 idx keyl 的 二 级 索引 记录 来 说 ， 只 按照 keyl 列 的 值 进 行 排序 。 而 且 在 keyl 值 相同 的 情 
况 下 是 不 按照 key2 列 的 值 进行 排序 的 ， 所 以 不 能 使 用 idx_keyl 索引 执行 上 述 查 询 。 

(3) 排序 列 是 某 个 联合 索引 的 索引 列 ， 但 是 这 些 排序 列 在 联合 索引 中 并 不 连续 

比如 下 面 这 个 查询 语句 : 


SELECT * FROM single table ORDER BY key partl, key part3 LIMIT 10; 
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key_partl 和 key_part3 在 联合 索引 idx_key part 中 并 不 连续 ， 中 间 还 有 个 key_part2。 对 于 idx_ 
key_part 的 二 级 索引 记录 来 说 ，key partl 值 相 同 的 记录 并 不 是 按照 key part3 排序 的 ， 所 以 不 
能 使 用 idx_key_part 执行 上 述 查 询 。 

(4) 用 来 形成 扫描 区 间 的 索引 列 与 排序 列 不 同 

比如 下 面 这 个 查询 语句 : 


| 
SELECT * FROM single table WHERE keyl = 'a' ORDER BY key2 LIMIT 10; 


企 这 个 查询 语句 中 ， 搜 索 条 件 keyl = 'a' 用 来 形成 扫描 区 间 ， 也 就 是 在 使 用 idx_keyl 执行 该 查 
询 时 ， 仅 需要 扫描 keyl 值 为 'a' 的 二 级 索引 记录 即 可 。 此 时 无 法 使 用 uk_key2 执行 上 述 查 询 。 
(5) 排序 列 不 是 以 单独 列 名 的 形式 出 现在 ORDER BY 子 句 中 


要 想 使 用 案 引 进行 排序 操作 ， 必须 保证 索引 列 是 以 单独 列 名 的 形式 (而 不 是 修饰 过 的 形 
式 ) 出 现 。 比 如 下 面 这 个 查询 语句 : 


SELECT * FROM single table ORDER BY UPPER (key1l) LIMIT 10; 


因为 keyl 列 是 以 UPPER(keyl) 函数 调用 的 形式 出 现在 ORDER BY 子 句 中 的 (UPPER 函数 用 
于 将 字符 串 转 为 大 写 形式 )， 所 以 不 能 使 用 idx_keyl 执行 上 述 查 询 。 


7.3.3 豪 引 用 于 分 组 


有 时 为 了 方便 统计 表 中 的 一 些 信息 ， 会 把 表 中 的 记录 按照 某 些 列 进行 分 组 。 比 如 下 面 这 个 
分 组 查询 语句 ; | 
| 


SELECT key partl, key part2, key_part3, COUNT(*) FROM single table GROUP BY key partl, 
key_part2, key part3; 


这 个 查询 语句 相当 于 执行 了 3 次 分 组 操作 。 
e 先 按 照 key partl 值 把 记录 进行 分 组 ， key_partl 值 相同 的 所 有 记录 划分 为 一 组 。 
。 将 key_partl 值 相 同 的 每 个 分 组 中 的 记录 再 按照 key part2 的 值 进行 分 组 ， 将 key part2 
值 相 同 的 记录 放 到 一 个 小 分 组 中 ， 看 起 来 像 是 在 一 个 大 分 组 中 又 细 分 了 好 多 小 分 组 。 
。 再 将 上 一 步 中 产生 的 小 分 组 按照 key_part3 的 值 分 成 更 小 的 分 组 。 所 以 整体 上 看 起 来 就 
像 是 先 把 记录 分 成 一 个 大 分 组 ， 然 后 再 把 大 分 组 分 成 若干 个 小 分 组 ， 最 后 把 若干 个 小 
分 组 再 细 分 成 更 多 的 小 小 分 组 。 
然后 针对 那些 小 小 分 组 进行 统计 ， 上 面 这 个 查询 语句 就 是 统计 每 个 小 小 分 组 包含 的 记录 条 
数 。 如 果 没有 idx_key_part 索引 ， 就 得 建立 一 个 用 于 统计 的 临时 表 ， 在 扫描 聚 秘 索 引 的 记录 时 
将 统计 的 中 间 结 果 填 入 这 个 临时 表 。 当 扫描 完 记录 后 ， 再 把 临时 表 中 的 结果 作为 结果 集 发 送 给 
客户 端 。 如 果 有 了 索引 idx_key part， 恰 巧 这 个 分 组 顺序 又 与 idx key part 的 索引 列 的 顺序 是 
一 致 的 ， 而 idx_ key part 的 二 级 索引 记录 又 是 按照 索引 列 的 值 排 好 序 的 ， 这 就 正好 了 。 所 以 可 
以 直接 使 用 idx_key_part 索引 进行 分 组 ， 而 不 用 再 建立 临时 表 了 。 


与 使 用 B+ 树 索引 进行 排序 差不多 ， 分 组 列 的 顺序 也 需要 与 索引 列 的 顺序 一 致 ， 也 可 以 只 
使 用 索引 列 中 左边 连续 的 列 进行 分 组 。 
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对 于 下 面 这 个 查询 语句 来 说 : 
SELECT * FROM single table WHERE keyl > 'a' AND keyl < 'c'; 


我 们 可 以 选择 下 面 这 两 种 方式 来 执行 。 
e@ 以 全 表 扫 描 的 方式 执行 该 查询 
也 就 是 直接 扫描 全 部 的 聚 簇 索引 记录 ， 针 对 每 一 条 聚 饶 索 引 记录 ， 都 判断 搜索 条 件 是 否 成 ” “ 
立 ， 如 果 成 立 则 发 送 到 客户 端 ， 否 则 跳 过 该 记录 。 
e@ 使 用 idx keyl 执行 该 查询 
可 以 根据 搜索 条 件 keyl > 'a' AND keyl < 'c' 得 到 对 应 的 扫描 区 间 ('a', 'c' )， 然 后 扫描 该 扫 
描 区 间 中 的 二 级 索引 记录 。 由 于 idx keyl 索引 的 叶子 节点 存储 的 是 不 完整 的 用 户 记录 ， 仅 包 
含 key1、 记 这 两 个 列 ， 而 查询 列表 是 *， 这 意味 着 我 们 需要 获取 每 条 二 级 索引 记录 对 应 的 聚 艇 
索引 记录 ， 也 就 是 执行 回 表 操 作 ， 在 获取 到 完整 的 用 户 记录 后 再 发 送 到 客户 端 。 
对 于 使 用 InnoDB 存储 引擎 的 表 来 说 ， 索 引 中 的 数据 页 都 必须 存放 在 磁盘 中 ， 等 到 需要 时 
再 加 载 到 内 存 中 使 用 。 这 些 数 据 页 会 被 存放 到 磁盘 中 的 一 个 或 者 多 个 文件 中 ， 页 面 的 页 号 对 应 
着 该 页 在 磁盘 文件 中 的 偏 移 量 。 以 16KB 大 小 的 页 面 为 例 ， 页 号 为 0 的 页 面 对 应 着 这 些 文件 中 
偏 移 量 为 0 的 位 置 ， 页 号 为 1 的 页 面 对 应 着 这 些 文件 中 偏 移 量 为 16KB 的 位 置 。 
前 面 章节 讲 过 ，B+ 树 的 每 层 节点 会 使 用 双向 链表 连接 起 来 ， 上 一 个 节点 和 下 一 个 节点 的 
页 号 可 以 不 必 相 邻 。 不 过 在 实际 实现 中 ， 设 计 InnoDB 的 大 叔 还 是 尽量 让 同一 个 索引 的 叶子 节 
点 的 页 号 按照 顺序 排列 ， 这 一 点 会 在 稍 后 讨论 表 空间 时 再 详细 啼 归 。 : 
也 就 是 说 ，idx keyl 在 扫描 区 间 ( @', 'c ) 中 的 二 级 索引 记录 所 在 的 页 面 的 页 号 会 尽 可 能 相 邻 。 
即使 这 些 页 面 的 页 号 不 相 邻 ， 但 起 码 一 个 页 面 可 以 存放 很 多 记录 ， 也 就 是 说 在 执行 完 一 次 页 面 JO 
后 ， 就 可 以 把 很 多 二 级 索引 记录 从 磁盘 加 载 到 内 存 中 。 总 而 言 之 ， 就 是 读 取 在 扫描 区 间 〈&e ) 中 
的 二 级 索引 记录 时 ， 所 付出 的 代价 还 是 较 小 的 。 不 过 扫描 区 间 〈'a, 避 ) 中 的 二 级 索引 记录 对 应 
的 记 值 的 大 小 是 毫 无 规律 的 ， 我 们 每 读 取 一 条 二 级 索引 记录 ， 就 需要 根据 该 二 级 索引 记录 的 il 
值 到 育 秘 索引 中 执行 回 表 操 作 。 如 果 对 应 的 聚 簇 索引 记录 所 在 的 页 面 不 在 内 存 中 ， 就 需要 将 该 
页 面 从 磁盘 加 载 到 内 存 中 。 由 于 要 读 取 很 多 id 值 并 不 连续 的 豪 簇 索引 记录 ， 而 且 这 些 聚 簇 索引 
记录 分 布 在 不 同 的 数据 页 中 ， 这 些 数据 页 的 页 号 也 毫 无 规律 ， 因 此 会 造成 大 量 的 随机 IO。 
需要 执行 回 表 操作 的 记录 越 多 ， 使 用 二 级 索引 进行 查询 的 性 能 也 就 越 低 ， 某 些 查询 宁愿 使 
用 全 表 扫 描 也 不 使 用 二 级 索引 。 比 如 ， 假 设 keyl 值 在 'a ~ 'c 之 间 的 用 户 记录 数量 占 全 部 记录 
数量 的 99% 以 上 ， 如 果 使 用 idx keyl 索引 ， 则 会 有 99% 以 上 的 id 值 需要 执行 回 表 操作 。 这 
不 是 吃力 不 讨好 么 ， 还 不 如 直接 执行 全 表 扫 描 。 
那么 在 执行 查询 时 ， 什 么 时 候 采 用 全 表 扫描 ， 什 么 时 候 使 用 二 级 索引 + 回 表 的 方式 呢 ? 这 就 
是 查询 优化 器 应 该 做 的 工作 。 查 询 优化 器 会 事先 针对 表 中 的 记录 计算 一 些 统计 数据 ， 然 后 再 利用 。 
这 些 统计 数据 或 者 访问 表 中 的 少量 记录 来 计算 需要 执行 回 表 操 作 的 记录 数 。 如 果 需 要 执行 回 表 操 
作 的 记录 数 越 多 ， 就 越 倾向 于 使 用 全 表 扫描 ， 反 之 则 倾向 于 使 用 二 级 索引 + 回 表 的 方式 。 当 然 ， 
查询 优化 器 所 做 的 分 析 工 作 没有 这 么 简单 ， 但 大 致 上 是 这 样 一 个 过 程 。 第 12 章 会 进行 定量 的 分 析 。 
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一 般 情况 下 ， 可 以 给 查询 语句 指定 LIMIT 子 句 来 限制 查询 返回 的 记录 数 ， 这 可 能 会 让 查 


询 优化 器 倾向 于 选择 使 用 二 级 索引 + 回 表 的 方式 进行 查询 ， 原 因 是 回 表 的 记录 越 少 ， 性 能 提升 
就 越 高 。 比 如 ， 上 面 的 查询 语句 可 以 改写 成 下 面 这 样 : 


SELECT * FROM single table WHERE keyl > 'a' AND keyl < 'c' LIMIT 10; 


添加 了 LIMIT 10 子 句 后 的 查询 语句 更 容易 让 查询 优化 器 采用 二 级 索引 + 回 表 的 方式 来 执行 。 
对 于 需要 对 结果 进行 排序 的 查询 ， 如 果 在 采用 二 级 索引 执行 查询 时 需要 执行 回 表 操 作 的 记 
录 特 别 多 ， 也 倾向 于 使 用 全 表 扫 描 + 文件 排序 的 方式 执行 查询 。 比 如 下 面 这 个 查询 语句 : 


| 
SELECT * FROM single table ORDER BY keyl; 


由 于 查询 列表 是 *， 如 果 使 用 二 级 索引 进行 排序 ， 则 需要 对 所 有 二 级 索引 记录 执行 回 表 操作 。 
这 样 操作 的 成 本 还 不 如 直接 遍历 聚 簇 索引 然后 再 进行 文件 排序 低 ， 所 以 查询 优化 器 会 倾向 于 使 
用 全 表 扫描 的 方式 执行 查询 。 如 果 添 加 了 LIMIT 子 句 ， 比 如 下 面 这 个 查询 语句 : 


SELECT * FROM single table ORDER BY keyl LIMIT 10; 


这 个 查询 语句 需要 执行 回 表 操 作 的 记录 特别 少 ， 查 询 优化 器 就 会 倾向 于 使 用 二 级 索引 + 回 表 的 
方式 来 执行 。 


7 更 好 地 创建 和 使 用 索引 


7.5.1 ”只 为 用 于 搜索 、 排 序 或 分 组 的 列 创建 罕 引 


我 们 只 为 出 现在 WHERE 子 句 中 的 列 、 连 接 子 句 中 的 连接 列 ， 或 者 出 现在 ORDER BY 或 


GROUP BY 子 句 中 的 列 创建 索引 ， 仅 出 现在 查询 列表 中 的 列 就 没 必要 建立 索引 了 。 比 如 我 们 
有 这 样 一 个 查询 语句 ， 


| 
SELECT common field, key part3 FROM single table WHERE keyl = 'a'; 


查询 列表 中 的 common field、key part3 这 两 个 列 就 没有 必要 创建 索引 。 我 们 只 需要 为 出 现在 
WHERE 子 句 中 的 keyl 列 创建 索引 就 可 以 了 。 


| 
7.5.2 ”考虑 索引 列 中 不 重复 值 的 个 数 


前 文 在 啼 归 回 表 的 知识 时 提 到 ， 在 通过 二 级 索引 + 回 表 的 方式 执行 查询 时 ， 茶 个 扫描 区 
间 中 包含 的 二 级 索引 记录 数量 越 多 ， 就 会 导致 回 表 操作 的 代价 越 大 。 我 们 在 为 某 个 列 创建 索引 
时 ， 需 要 考虑 该 列 中 不 重复 值 的 个 数 占 全 部 记录 条 数 的 比例 。 如 果 比 例 太 低 ， 则 说 明 该 列 包含 
过 多 重复 值 ， 那 么 在 通过 二 级 索引 + 回 表 的 方式 执行 查询 时 ， 就 有 可 能 执行 太 多 次 回 表 操 作 。 


7.5.3 ”索引 列 的 类 型 尽量 小 
在 定义 表 结 构 时 ， 要 显 式 地 指定 列 的 类 型 。 以 整数 类 型 为 例 ， 有 TINYINT、MEDIUMINT、 


| 
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INT、BIGINT 这 几 种 ， 它 们 占用 的 存储 空间 的 大 小 依次 递增 。 下 面 所 说 的 类 型 大 小 指 的 就 是 
该 类 型 占用 的 存储 空间 的 大 小 。 刚 才 提 到 的 这 几 个 整数 类 型 ， 它 们 能 表示 的 整数 范围 当然 也 是 
依次 递增 。 如 果 想 要 对 某 个 整数 类 型 的 列 建立 索引 ， 在 表示 的 整数 范围 允许 的 情况 下 ， 尽 量 让 
索引 列 使 用 较 小 的 类 型 ， 比 如 能 使 用 INT 就 不 要 使 用 BIGINT， 能 使 用 MEDIUMINT 就 不 要 
使 用 INT。 因 为 数据 类 型 越 小 ， 索 引 占 用 的 存储 空间 就 越 少 ， 在 一 个 数据 页 内 就 可 以 存放 更 多 
的 记录 ， 磁 盘 IO 带 来 的 性 能 损耗 也 就 越 小 (一 次 页 面 IO 可 以 将 更 多 的 记录 加 载 到 内 存 中 )， 
读 写 效 率 也 就 越 高 。 

这 个 建议 对 于 表 的 主键 来 说 更 加 适用 ， 因 为 不 仅 聚 簇 索 引 会 存储 主键 值 ， 其 他 所 有 的 二 级 
索引 的 节点 都 会 存储 一 份 记录 的 主键 值 。 如 果 主 键 使 用 更 小 的 数据 类 型 ， 也 就 意味 着 能 节省 更 
多 的 存储 空间 。 


7.5.4 为 列 前 组 建立 索引 


我 们 知道 ， 一 个 字符 串 其 实 是 由 者 干 个 字符 组 成 的 。 如 果 在 MySQL 中 使 用 utf8 字符 集 
存储 字符 串 ， 则 需要 1 一 3 字 节 来 编码 一 个 字符 。 假 如 字符 串 很 长 ， 那 么 在 存储 这 个 字符 串 
时 就 需要 占用 很 大 的 存储 空间 。 在 需要 为 这 个 字符 串 所 在 的 列 建立 索引 时 ， 就 意味 着 在 对 应 
的 B+ 树 中 的 记录 中 ， 需 要 把 该 列 的 完整 字符 串 存 储 起 来 。 字 符 串 越 长 ， 在 索引 中 占用 的 存 
储 空 间 越 大 。 

前 文 说 过 ， 索 引 列 的 字符 串 前 缀 其 实 也 是 排 好 序 的 ， 所 以 索引 的 设计 人 员 提 出 了 一 个 方 
案 ， 即 只 将 字符 串 的 前 几 个 字符 存放 到 索引 中 ， 也 就 是 说 在 二 级 索引 的 记录 中 只 保留 字符 串 的 
前 几 个 字符 。 比 如 我 们 可 以 这 样 修改 idx_keyl 索引 ， 让 索引 中 只 保留 字符 串 的 前 10 个 字符 : 


ALTER TABLE single table DROP INDEX idx keyl; 
ALTER TABLE single table ADD INDEX idx keyl (keyl (10)); 


然后 再 执行 下 面 这 个 查询 语句 : 
SELECT * FROM single table WHERE keyl = "abcdefghijklmn'; 


由 于 在 idx_keyl 的 二 级 索引 记录 中 只 保留 字符 串 的 前 10 个 字符 ， 所 以 我 们 只 能 定位 到 
前 缀 为 'abcdefghij' 的 二 级 索引 记录 ， 在 扫描 这 些 二 级 索引 记录 时 再 判断 它们 是 否 满足 keyl = 
'abcdefghijklmn' 条 件 。 当 列 中 存储 的 字符 串 包 含 的 字符 较 多 时 ， 这 种 为 列 前 缀 建立 索引 的 方式 
可 以 明显 减少 索引 大 小 。 

不 过 ， 在 只 对 列 前 缀 建立 索引 的 情况 下 ， 下 面 这 个 查询 语句 就 不 能 使 用 索引 来 完成 排序 需 
求 了 : 


SELECT * FROM single table ORDER BY keyl LIMIT 10; 


因为 二 级 索引 idx_keyl 中 不 包含 完整 的 keyl 列 信息 ， 所 以 在 仅 使 用 idx keyl 索引 执行 查 
询 时 ， 无 法 对 keyl 列 前 10 个 字符 相同 但 其 余 字 符 不 同 的 记录 进行 排序 。 也 就 是 说 ， 只 为 列 前 
缀 建立 索引 的 方式 无 法 支持 使 用 索引 进行 排序 的 需求 。 上 述 查询 语句 只 好 乖乖 地 使 用 全 表 扫 描 二 + 
文件 排序 的 方式 来 执行 了 。 


只 为 列 前 缀 创建 索引 的 过 程 我 们 就 介绍 完了 ， 还 是 将 idx keyl 改 回 原来 的 样式 : 


| | 
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ALTER TABLE single table DROP INDEX idx_keyl; 
ALTER TABLE single table ADD INDEX idx_keyl (key]l); 


7.5.5 ”覆盖 索引 


为 了 彻底 告别 回 表 操作 带 来 的 性 能 损耗 ， 建 议 最 好 在 查询 列表 中 只 包含 索引 列 ， 比 如 下 面 
这 个 查询 语句 : 


SELECT keyl, id FROM single_table WHERE keyl > 'a' RND keyl < 'c'; 


由 于 我 们 只 查询 keyl 列 和 id 列 的 值 ， 所 以 在 使 用 idx_key1 索引 来 扫描 (av 'e' ) 区 间 中 
的 二 级 索引 记录 时 ， 可 以 直接 从 获取 到 的 二 级 索引 记录 中 读 出 keyl 列 和 记 列 的 值 ， 而 不 需要 
再 通过 id 值 到 聚 簇 索引 中 执行 回 表 操 作 了 ， 这 样 就 省 去 了 回 表 操 作 带 来 的 性 能 损耗 。 我 们 把 
这 种 索引 中 已 经 包含 所 有 需要 该 取 的 列 的 查询 方式 称 为 禾 盖 索引 。 排 序 操作 也 优先 使 用 覆盖 过 
引进 行 查询 ， 比 如 下 面 这 个 查询 语句: 


SELECT keyl FROM single table| ORDER BY keyl; 


虽然 这 个 查询 语句 中 没有 LIMIT 子 句 ， 但 是 由 于 可 以 采用 覆盖 索引 ， 所 以 查询 优化 器 会 
直接 使 用 idx_keyl 索引 进行 排序 ， 而 不 需要 执行 回 表 操 作 。 

当然 ， 如 果 业 务 需 要 查询 索引 列 以 外 的 列 ， 那 还 是 以 保证 业务 需求 为 重 。 如 无 必要 ， 最 好 
仅 把 业务 中 需要 的 列 放 在 查询 列表 中 ， 而 不 是 简单 地 以 * 蔡 代 。 


7.5.6 ”让 索引 列 以 列 名 的 形式 在 搜索 条 件 中 单独 出 现 
在 下 面 这 两 个 查询 语句 中 ， 搜 索 条 件 的 语义 是 一 样 的 。 


SELECT * FROM sl single table WHERE key2 * 2 < 4; 

SELECT * FROM sl single table WHERE key2 < 4/2; 

在 第 一 个 查询 语句 的 搜索 条 件 中 ，key2 列 并 不 是 以 单独 列 名 的 形式 出 现 的 ， 而 是 以 key2 * 2 
这 样 的 表达 式 的 形式 出 现 的 。MyS$QL 并 不 会 尝试 简化 key2 * 2 < 4 表达 式 ， 而 是 直接 认为 这 个 
搜索 条 件 不 能 形成 合适 的 扫描 区 间 来 减少 需要 扫描 的 记录 数量 ， 所 以 该 查询 语句 只 能 以 全 表 扫 
描 的 方式 来 执行 。 

在 第 二 个 查询 语句 的 搜索 条 件 中 ，key2 列 是 以 单独 列 名 的 形式 出 现 的 ，MySQL 可 以 分 析 
出 : 如 果 使 用 uk key2 执行 查询 ， 对 应 的 扫描 区 间 就 是 (- = , 2)， 这 可 以 减少 需要 扫描 的 记 
录 数 量 。 所 以 MySQL 可 能 使 用 uk key2 来 执行 查询 。 

所 以 ， 如 果 想 让 某 个 查询 使 用 索引 来 执行 ， 请 让 索引 列 以 列 名 的 形式 单独 出 现在 搜索 条 件 中 。 


7.5.7 ”新 插入 记录 时 主键 大 小 对 效率 的 影响 


我 们 知道 ， 对 于 一 个 使 用 InnoDB 存储 引擎 的 表 来 说 ， 在 没有 显 式 创建 索引 时 ， 表 中 的 数 
据 实际 上 存储 在 聚 簇 索 引 的 叶子 节点 中 ， 而 且 B+ 树 的 每 一 层 数据 页 以 及 页 面 中 的 记录 都 是 按 
照 主键 值 从 小 到 大 的 顺序 排序 的 。 如 果 新 插入 记录 的 主键 值 是 依次 增 大 的 话 ， 则 每 插 满 一 个 数 
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据 页 就 换 到 下 一 个 数据 页 继续 插入 。 如 果 新 插入 记录 的 主键 值 忽 大 忽 小 ， 就 比较 麻烦 了 。 
假设 某 个 数据 页 存储 的 聚 簇 索引 记录 已 经 满 了 ， 它 存储 的 主键 值 在 1 一 100 之 间 ， 如 图 7-17 
所 示 。 





图 7-17 数据 页 存储 的 聚 冬 索引 记录 己 满 


此 时 ， 如 果 再 插入 一 条 主键 值 为 9 的 记录 ， 则 它 插入 的 位 置 就 如 图 7-18 所 示 。 





图 7-18 插入 一 条 主键 值 为 9 的 记录 


可 这 个 数据 页 已 经 满 了 啊 ， 新 记录 该 插入 到 哪里 呢 ? 我 们 需要 把 当前 页 面 分 裂 成 两 个 页 
面 ， 把 本 页 中 的 一 些 记 录 移 动 到 新 创建 的 页 中 。 页 面 分 裂 意味 着 什么 ? 意味 着 性 能 损耗 ! 所 
以 ， 如 果 想 尽量 避免 这 种 无 谓 的 性 能 损耗 ， 最 好 让 插入 记录 的 主键 值 依次 递增 。 就 像 single_ 
table 表 的 主键 id 列 具 有 AUTO_INCREMENT 属性 那样 ，MySQL 会 自动 为 新 插入 的 记录 生成 
递增 的 主键 值 。 


7.5.8 ” 匈 余 和 重复 索引 
针对 single table 表 ， 可 以 单独 针对 key partl 列 建立 一 个 idx key partl 索引 : 


ALTER TABLE single table ADD INDEX idx key partl (key partl); 


其 实现 在 我 们 已 经 有 了 一 个 针对 key_part1、key_part2、key_part3 列 建立 的 联合 索引 idx 
key part。idx key part 索引 的 二 级 索引 记录 本 身 就 是 按照 key partl 列 的 值 排 序 的 ， 此 时 再 单 
独 为 key_ partl 列 建 立 一 个 索引 其 实 是 没有 必要 的 。 我 们 可 以 把 这 个 新 建 的 idx key partl 索引 
看 作 一 个 元 余 索引 ， 该 元 余 索 引 是 没有 必要 的 。 

有 时 ， 我 们 可 能 会 对 同一 个 列 创建 多 个 索引 ， 比 如 下 面 这 两 个 添加 索引 的 语句 : 


ALTER TABLE single table ADD UNIQUE KEY uk id(id); 
ALTER TABLE single table RDD INDEX idx id(id); 


我 们 针对 id 列 又 建立 了 一 个 唯一 二 级 索引 uk_id， 还 建立 了 一 个 普通 二 级 索引 idx id。 可 
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征 id 列 本 身 就 是 single_table 表 的 主键 ，InnoDB 自动 为 该 列 建立 了 聚 簇 索引 ， 此 时 uk id 和 
idx_id 就 是 重复 的 ， 这 种 重复 索引 应 该 避免 。 


为 了 方便 理解 ， 我 们 简化 了 B+ 树 索引 的 示意 图 ， 在 其 中 省 略 了 页 面 结构 ， 只 保留 了 叶子 
节点 中 的 记录 。 

B+ 树 索引 在 空间 和 时 间 上 都 有 代价 ， 所 以 没事 儿 别 上 映 建 索引 。 

索引 可 以 用 于 减少 需要 扫描 的 记录 数量 ， 也 可 以 用 于 排序 和 分 组 。 

在 使 用 索引 来 减少 需要 扫描 的 记录 数量 时 ， 应 该 先 找到 使 用 该 索引 执行 查询 时 对 应 的 扫描 区 间 
和 形成 六 扫描 区 间 的 边界 条 件 ， 然 后 就 可 以 扫描 各 个 扫描 区 间 中 的 记录 。 如 果 扫 措 的 是 二 级 索引 记 


隶 ， 并 且 如 果 需 要 完整 的 用 户 记录 ， 就 需要 根据 获取 到 的 每 条 二 级 索引 记录 的 主键 值 执行 回 表 操作 ， 
在 创建 和 使 用 索引 时 应 注意 下 列 事项 : 
e ”只 为 用 于 搜索 、 排 序 或 分 组 的 列 创建 索引 . 
当 列 中 不 重复 值 的 个 数 在 总 记录 条 数 中 的 占 比 很 大 时 ， 才 为 列 建立 索引 ; 
索引 列 的 类 型 尽量 小 ; 
可 以 只 为 索引 列 前 缀 创建 索引 ， 以 减 小 索引 占用 的 存储 空间 
尽量 使 用 覆盖 索引 进行 查询 ， 以 避免 回 表 操 作 带 来 的 性 能 损耗 ， 
让 索引 列 以 列 名 的 形式 单独 出 现在 搜索 条 件 中 ， 
为 了 尽 可 能 少 地 让 吝 簇 索引 发 生 页 面 分 裂 的 情况 ， 建 议 让 主键 拥有 AUTO INCREMENT 
属性 ; | 
e 定位 并 删除 表 中 的 元 余 和 重复 索引 。 
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8.1 数据库 和 文件 系统 的 关系 


我 们 知道 ， 像 InnoDB、MyISAM 这 样 的 存储 引擎 都 是 把 表 存 储 在 磁盘 上 ， 而 操作 系统 又 
是 使 用 文件 系统 来 管理 磁盘 ， 所 以 用 专业 一 点 的 话 来 表述 就 是 : 像 InnoDB、MyISAM 这 样 的 
存储 引擎 都 是 把 数据 存储 在 文件 系统 上 。 当 我 们 想 读 取 数 据 的 时 候 ， 这 些 存储 引擎 会 从 文件 系 
统 中 把 数据 读 出 来 返回 给 我 们 ; ， 当 我 们 想 写 入 数据 的 时 候 ， 这 些 存储 引擎 会 把 这 些 数 据 又 写 回 
文件 系统 。 本 章 就 是 要 啼 九 一 下 InnoDB 和 MyISAM 这 两 个 存储 引擎 的 数据 是 如 何在 文件 系 
统 中 存储 的 。 


当 本 章 以 MysQL 57.22 为 例 ， 因 此 某 些 内 容 在 其 他 的 MySQE 版 本 中 可 能 会 有 些 出 
和 瑚 大 家 二 惠 =。 


8.2 MySQL 数据 目录 


MySQL 服务 器 程序 在 局 动 时 ， 会 到 文件 系统 的 某 个 目录 下 加 载 一 些 数据 ， 之 后 在 运行 过 
程 中 产生 的 数据 也 会 存储 到 这 个 目录 下 的 某 些 文件 中 。 这 个 目录 就 称 为 数据 目录 。 本 章 的 内 容 
就 要 详细 踪 踪 这 个 目录 下 具体 都 有 哪些 重要 的 东西 


8.2.1 数据 目录 和 安装 目录 的 区 别 
我 们 之 前 只 接触 过 MySQL 的 安装 目录 (在 安装 MySQL 时 可 以 自己 指定 ) ， 而 且 前 面 的 
章节 中 已 经 重点 强调 过 这 个 安装 目录 下 非常 重要 的 bin 目录 。 它 里 边 存 储 了 许多 用 来 控制 客户 
端 程序 和 服务 器 程序 的 命令 〈 许 多 可 执行 文件 ， 比 如 mysql、mysqld、mysqld safe 等 ， 有 好 几 


十 个 )。 而 数据 目录 是 用 来 存储 MySQL 在 运行 过 程 中 产生 的 数据 。 大 家 一 定 要 把 安装 目录 与 
本 章 要 讨论 的 数据 目录 区 分 开 ! 一 定 要 区 分 开 ! 


8.2.2 如 何 确定 MySQL 中 的 数据 目录 


说 了 半天 ，MySQL 到 撒 把 数据 存 到 哪个 路 径 下 呢 ? 其 实数 据 目 录 对 应 着 一 个 系统 变量 
datadir。 在 使 用 客户 端 与 服务 器 建立 连接 之 后 ， 查 看 这 个 系统 变量 的 值 就 知道 了 : 
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mysql> SHOW VARIABLES LIKE hy i 


-一 一 一 一 一 一 一 一 一 一 一 + 


| datadir | /usr/local/var/mysql/ | 
+—~——~—-~——~——————— +-——————-~—— 一 一 -一 一 一 一 一 一 一 一 一 + 
1 row in set (0.00 sec) 


从 上 述 结果 可 以 看 出 ， 在 我 的 计算 机 上 ， MySQL 的 数据 目录 就 是 /usr/local/var/mysql/。 大 
家 可 以 用 自己 的 的 计算 机 试 试看 。 


| nt 
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| 

MySQL 在 运行 过 程 中 都 会 产生 哪些 数据 呢 ? 当然 会 包含 我 们 创建 的 数据 库 、 表 、 视 图 和 

触发 器 等 用 户 数据 。 除 了 这 些 用 户 数据 ， 为 了 让 程序 更 好 地 运行 ，MySQL 也 会 创建 一 些 额外 
的 数据 。 我 们 接 下 来 细 细 地 品味 一 下 这 个 数据 目录 中 的 内 容 。 


8.3.1 ”数据库 在 文件 系统 中 的 表示 


每 当 使 用 “CREATE DATABASE 数据 库 名 ” 语句 创建 一 个 数据 库 的 时 候 ， 在 文件 系统 中 
实际 发 生 了 什么 呢 ? 其 实 很 简单 ， 个 数据 库 都 对 应 数据 目录 下 的 一 个 子 目录 ， 或 者 说 对 应 一 
个 文件 夹 。 每 当 我 们 新 建 一 个 数据 库 时 ，MySQL 会 帮 我 们 做 两 件 事 : 

® 在 数据 目录 下 创建 一 个 与 数据 库 名 同名 的 子 目 录 (或 者 说 是 文件 夹 )， 

e 在 与 该 数据 库 名 同名 的 子 录 下 创建 一 个 名 为 db.opt 的 文件 。 这 个 文件 中 包含 了 该 数 

据 库 的 一 些 属性 ， 比 如 该 数据 库 的 字符 集 和 比较 规则 。 

下 由 查看 一 下 在 我 的 计算 机 上 当前 有 哪 此 数据库 : 


mysql> SHOW DATABASES; 
| Database | 


| information schema | 
| charset demo db | 
| dahaizi | 
| mysqgl | 
| performance schema | 
| sys | 
| xiaohaizi | 


7 rows in set (0.00 Sec) 


可 以 看 到 ， 当前 在 我 的 计算 机 由 者 7 个 数据 库 ， 其 中 charset demo db、dahaizi 和 xiaohaizi 


数据 库 是 我 们 自 定 义 的 ， 其 余 4 个 数据 库 是 MySQL 目 带 的 系统 数据 库 。 再 在 我 的 计算 机 上 看 
一 下 数据 目录 中 的 内 容 : 


— auto.cnf 
— ca-key .pem 
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ca.pem 


he : , 
| 一 charset_demo_db 
-一 - 
一- 


| 一 Performance_schema 
| 一 private_key .pem 

| 一 public_xkey.pem 

上 一 server-cert.Pem 

| 一 server-key.Pem 

| 一 sys 

上 xiaohaizideMacBook-Pro.local .err 

| 一 xiaohaizideMacBook-Pro.local .pid 

[一 xiaohaizi 


6 directories, 16 files 


当然 ， 这 个 数据 目录 中 的 文件 和 子 目 录 比 较 多 ， 但 是 如 果 和 仔细 看 的 话 可 以 发 现 ， 除 了 
information schema 这 个 系统 数据 库 外 ， 其 他 的 数据 库 在 数据 目录 下 都 有 对 应 的 子 目 录 。 这 个 
information_schema 比较 特殊 ， 设 计 MySQL 的 大 叔 对 它 的 实现 进行 了 特殊 对 待 ， 没 有 在 数据 
目录 下 为 其 建立 相应 的 子 目 录 。 


8.3.2 ” 表 在 文件 系统 中 的 表示 


我 们 的 数据 其 实 都 是 以 记录 的 形式 插入 到 表 中 的 。 每 个 表 的 信息 可 以 分 为 两 种 : 

e 表 结构 的 定义 ; 

e 表 中 的 数据 。 

表 结 构 指 的 是 该 表 的 名 称 是 啥 、 表 里 面 有 多 少 列 、 每 个 列 的 数据 类 型 是 啥 、 有 啥 约束 条 件 
和 索引 、 用 的 是 啥 字符 集 和 比较 规则 等 各 种 信息 。 这 些 信息 都 体现 在 了 我 们 的 建 表 语句 中 。 为 
了 保存 这 些 信息 ，InnoDB 和 MyISAM 这 两 种 存储 引擎 都 在 数据 目录 下 对 应 的 数据 库 子 目录 中 
创建 了 一 个 专门 用 于 描述 表 结 构 的 文件 ， 文 件 名 是 下 面 这 样 : 


表 名 .frm 
比如 ， 我 们 在 dahaizi 数据 库 下 创建 一 个 名 为 test 的 表 : 


mysql> USE dahaizi; 
Database changed 





mysql> CREATE TABLE test ( 
-> cl INT 
= 
Query OK, 0 rows affected (0.03 sec) 


则 在 数据 库 dahaizi 对 应 的 子 目 录 下 就 会 创建 一 个 名 为 test.frm 文件 ， 用 来 描述 表 结 构 。 值 得 注 


8.3 ”数据 目录 的 结构 。 135 


意 的 是 ， 这 个 后 缀 名 为 .frm 的 文件 是 以 二 进 制 格式 存储 的 ， 若 直接 打开 会 显示 乱码 。 大 家 还 
不 赶紧 在 目 己 的 计算 机 上 创建 个 表 试 试 ， 看 看 有 没有 生成 对 应 的 后 缀 名 为 .frm 文件 。 
描述 表 结构 的 文件 现在 我 们 知道 怎么 存储 了 ， 那 么 表 中 的 数据 存 到 什么 文件 中 了 呢 ? 在 这 


个 问题 上 ， 不 同 的 存储 引擎 就 产生 了 分 歧 。 下 面 我 们 分 别 看 一 下 InnoDB 和 MyISAM 使 用 什 
么 文件 来 保存 表 中 的 数据 。 


1. InnoDB 是 如 何 存储 表 数 据 的 


前 面 章节 重点 噶 明 过 InnoDB 的 一 些 实现 原理 ， 我 们 应 该 很 熟悉 下 面 这 些 内 容 。 
e@ InnoDB 其 实 是 使 用 页 为 基本 单位 来 管理 存储 空间 的 ， 默 认 的 页 大 小 为 16KB。 
e 对 于 InnoDB 存储 引擎 来 说 ， 每 个 索引 都 对 应 着 一 棵 B+ 树 ， 该 B+ 树 的 每 个 节点 都 是 
一 个 数据 页 。 数 据 页 之 间 没 有 必要 是 物理 连续 的 ， 因 为 数据 页 之 间 有 双向 链表 来 维护 
这 些 页 的 顺序 。 

。 InnoDB 的 育儿 索引 的 叶子 节点 存储 了 完整 的 用 户 记录 ， 也 就 是 所 谓 的 “索引 即 数据 ， 

数据 即 索 引 ”。 

为 了 更 好 地 管理 这 些 页 ， 设 计 InnoDB 的 大 叔 提 出 了 表 空 间 〈table space) 或 者 文件 空间 
(file space) 的 概念 。 这 个 表 空间 是 一 个 抽象 的 概念 ， 它 可 以 对 应 文件 系统 上 一 个 或 多 个 真实 
文件 (不 同 表 空间 对 应 的 文件 数量 可 能 不 同 )。 每 一 个 表 空间 可 以 被 划分 为 很 多 个 页 ， 表 数据 
就 存放 在 某 个 表 空间 下 的 某 些 页 中 。 设 计 InnoDB 的 大 叔 将 表 空 间 划 分 为 几 种 不 同 的 类 型 ， 我 
们 逐一 细 看 。 

(1) 系统 表 空 间 (system tablespace) z 

这 个 系统 表 空 间 可 以 对 应 文件 系统 上 一 个 或 多 个 实际 的 文件 。 在 默认 情况 下 ，InnoDB 会 
在 数据 目录 下 创建 一 个 名 为 ibdatal (在 你 的 数据 目录 下 找 找 看 有 没有 )、 大 小 为 12MB 的 文 
件 ， 这 个 文件 就 是 对 应 的 系统 表 空 间 在 文件 系统 上 的 表示 。 怎 么 才 12MB ? 这 么 点 儿 还 没 插 多 
少数 据 就 用 完了 。 这 是 因为 这 个 文件 是 自 扩 展 文件 ， 也 就 是 当 不 够 用 的 时 候 它 会 自己 增加 文件 
大 小 。 

当然 ， 如 果 想 让 系统 表 空 间 对 应 文件 系统 上 的 多 个 实际 文件 ， 或 者 仅仅 觉得 原来 的 
ibdatal 这 个 文件 名 难听 ， 那 么 可 以 在 MySQL 服务 器 启动 时 ， 配 置 对 应 的 文件 路 径 以 及 它们 的 
大 小 。 比 如 我 们 像 下 面 这 样 修改 配置 文件 : 


[server] 


innodb_data_file_path=datal:512M;data2:512M:autoextend 


这 样 ， 在 MySQL 启动 之 后 就 会 创建 datal 和 data2 这 两 个 各 自 512MB 大 小 的 文件 作为 系 
统 表 空 间 。 其 中 的 autoextend 表明 ， 如 果 这 两 个 文件 不 够 用 ， 则 会 自动 扩展 data2 文件 的 大 小 。 

我 们 也 可 以 不 把 系统 表 空间 对 应 的 文件 路 径 配 置 到 数据 目录 下 ， 甚 至 可 以 配置 到 单独 的 磁 
盘 分 区 上 ， 这 时 涉及 的 启动 选项 就 是 innodb data file path 和 innodb data home dir。 具 体 的 配 
置 远 辑 挺 绕 的 ， 这 就 不 多 啼 路 了 人。 知道 通过 修改 哪个 选项 可 以 修改 系统 表 空间 对 应 的 文件 ， 然 
后 在 有 需要 的 时 候 去 查询 官方 文档 就 好 了 。 

需要 注意 的 一 点 是 ， 在 一 个 MySQL 服务 器 中 ， 系 统 表 空间 只 有 一 份 。 从 MySQL 5.5.7 到 
MySQL 5.6.5 之 间 的 各 个 版 本 中 ， 表 中 的 数据 都 会 被 默认 存储 到 这 个 系统 表 空 间 。 








wii 一 一 


| 


] 
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(2) 独立 表 空 间 (file-per-table tablespace) 

在 MySQL 5.6.6 以 及 之 后 的 版 本 中 ，InnoDB 不 再 默认 把 各 个 表 的 数据 存储 到 系统 表 空 间 
中 ， 而 是 为 每 一 个 表 建 立 一 个 独立 表 空 间 。 也 就 是 说 ， 我 们 创建 了 多 少 个 表 ， 就 有 多 少 个 独立 
表 空间 。 在 使 用 独立 表 空 间 来 存储 表 数 据 时 ， 会 在 该 表 所 属 数据 库 对 应 的 子 目 录 下 创建 一 个 表 
示 该 独立 表 空 间 的 文件 ， 其 文件 名 和 表 名 相同 ， 只 不 过 添加 了 一 个 .ibd 扩展 名 。 所 以 完整 的 文 
件 名 称 长 这 样 : 


表 名 .ibd 


假如 我 们 使 用 独立 表 空 间 来 存储 dahaizi 数据 库 下 的 test 表 ， 那 么 在 该 表 所 在 数据 库 对 应 
的 dahaizi 目录 下 会 为 test 表 创 建 下 面 这 两 个 文件 : 

@ test.frm ; 

© test.lbd。 

其 中 ，test.ibd 文件 用 来 存储 test 表 中 的 数据 。 当 然 也 可 以 自己 指定 是 使 用 系统 表 空间 还 是 
独立 表 空 间 来 存储 数据 ， 这 个 功能 由 启动 选项 innodb file per table 控制 。 比 如 ， 我 们 想 刻 意 
将 表 数 据 都 存储 到 系统 表 空 间 ， 则 可 以 在 启动 MySQL 服务 器 时 这 样 配置 : 

att 

当 innodb file per table 的 值 为 0 时， 表示 使 用 系统 表 空 间 ; 当 innodb file_per_table 的 值 
为 1 时， 表示 使 用 独立 表 空间 。 不 过 innodb file per table 选项 只 对 新 建 的 表 起 作用 ， 对 于 已 
经 分 配 了 表 空 间 的 表 并 不 起 作用 。 如 果 想 把 已 经 存储 到 系统 表 空 间 中 的 表 转 移 到 独立 表 空 间 ， 
可 以 使 用 下 面 的 语法 : 


ALTER TABLE 表 名 TABLESPACE [=] innodb file_per table; 
要 把 已 经 存储 到 独立 表 空间 的 表 转 移 到 系统 表 空间 ， 可 以 使 用 下 面 的 语法 : 
ALTER TABLE 表 名 TABLESPACE [=] innodb_ system; 


其 中 ， 中 括号 扩 起 来 的 等 号 = 可 有 可 无 。 比 如 ， 我 们 想 把 test 表 从 独立 表 空间 移动 到 系统 
表 空 间 ， 可 以 这 么 写 : 


ALTER TABLE test TABLESPACE innodb system; 


(3) 其 他 类 型 的 表 空 间 

除了 上 述 两 种 表 空间 之 外 ， 还 有 一 些 不 同类 型 的 表 空间 ， 比 如 通用 表 空间 (general tablespace)、 
undo 表 空 间 (undo tablespace)、 临 时 表 空间 (temporary tablespace》 等 ， 具 体 情 况 就 不 详细 哎 
明 了 ， 等 用 到 的 时 候 再 提 。 


2. MylSAM 是 如 何 存 储 表 数 据 的 


啼 明 完了 InnoDB 的 系统 表 空 间 和 独立 表 空 间 ， 现 在 轮 到 MyISAM 了 。 我 们 知道 ， 索 引 
和 数据 在 InnoDB 中 是 同一 回 事 ， 而 MyISAM 中 的 索引 相当 于 全 部 都 是 二 级 索引 ， 该 存储 引 
擎 的 数据 和 索引 是 分 开 存 放 的 。 所 以 在 文件 系统 中 也 是 使 用 不 同 的 文件 来 存储 数据 文件 和 索引 
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文件 。 而 且 与 InnoDB 不 同 的 是 ，MyISAM 并 没有 什么 表 空 间 一 说 ， 表 的 数据 和 索引 都 存放 到 
对 应 的 数据 库 子 目录 下 。 假 如 test 表 使 用 的 是 MyISAM 存储 引擎 ， 那 么 在 它 所 在 数据 库 对 应 
的 dahaizi 目录 下 会 为 test 表 创 建 下 面 这 3 个 文件 : 
@ test.frm ; 
@ testMYD ; 1 
@ ftestMYT。 | 


其 中 ，testMYD 表示 表 的 数据 文件 ， 也 就 是 插入 的 用 户 记 录 ; testMYI 表 示 表 的 索引 文件 ， 
We 


8.3.3 其 他 的 文件 





除了 上 面 说 的 这 些 用 户 自己 存储 的 数据 以 外 ， 数 据 目录 下 还 包含 了 一 些 确 保 程序 更 好 运行 
的 额外 文件 ， 主 要 包括 下 面 几 种 类 型 的 文件 。 
® 服务 器 进程 文件 ， 每 运行 一 个 MySQL 服务 器 程序 ， 都 意味 着 启动 一 个 进程 。 MySQL 
服务 器 会 把 自己 的 进程 ID 写 入 到 这 个 文件 中 。 
® 服务 器 日 志文 件 : 在 服务 器 运行 期 间 ， 会 产生 各 种 各 样 的 日 志 ， 比 如 常规 的 查询 日 志 、 
错误 日 志 、 二 进 制 日 志 、redo 日 志 等 。 这 些 日 志 各 有 各 的 用 途 ， 我 们 之 后 会 重点 啼 趾 
一 些 日 志 的 用 途 ， 现 在 先 了 解 一 下 就 可 以 了 。 


® SSL 和 RSA 证 书 与 密 钥 文件 ， 主 要 是 为 了 客户 端 和 服务 器 安全 通信 而 创建 的 一 些 文件 ， 
现在 看 不 懂 可 以 忽略 。 


| 


8.4 文件 系统 对 数据 库 的 影响 


Pm er a se onerhoeree We 市 


一 一 ~ 


A Weeraemeeer ee 


因为 MySQL 的 数据 都 是 存储 在 文件 系统 中 ， 因 此 就 不 得 不 受到 文件 系统 的 一 些 制 约 ， 这 
在 数据 库 和 表 的 命名 、 表 的 大 小 和 性 能 等 方面 具有 明显 的 体现 。 

e 数据 库 名 称 和 表 名 称 不 得 超过 文件 系统 所 允许 的 最 大 长 度 。 

每 个 数据 库 都 对 应 数据 目录 的 一 个 子 目录 ， 数 据 库 名 称 就 是 这 个 子 目 录 的 名 称 ， 每 个 表 都 
会 在 数据 目录 的 子 目录 下 产生 一 个 与 表 名 同名 的 .frm 文件 。 如 果 使 用 InnoDB 的 独立 表 空间 或 
音 使 用 MyISAM 存储 引擎 ， 还 会 产生 别 的 与 表 名 同名 的 文件 (扩展 名 不 一 样 )。 这 些 目录 或 文 
件 名 的 长 度 都 受 限于 文件 系统 所 允许 的 长 度 。 

。 特殊 字符 的 问题 。 

为 了 避免 因为 数据 库 名 和 表 名 出 现 某 些 特殊 字符 而 造成 文件 系统 不 支持 的 情况 ， MySQL 会 
把 数据 库 名 和 表 名 中 所 有 除数 字 和 拉丁 字母 以 外 的 任何 字符 在 文件 名 中 都 映射 成 @ + 编码 值 的 
形式 ， 并 将 其 作为 文件 名 。 wl 我 们 创建 的 表 的 名 称 为 test?， 由 于 “? ”不 属于 数字 或 者 拉 
本 字母， 因此 会 被 映射 成 编码 值 ， 所 以 这 个 表 对 应 的 frm 文件 的 名 称 就 变 成 了 test@003ffrm.。 

e 文件 长 度 受 文件 系统 最 大 长 度 的 限制 。 

对 于 InnoDB 的 独立 表 空 间 来 说 ， 每 个 表 的 数据 都 会 被 存储 到 一 个 与 表 名 同名 的 .ibd 文件 
中 ; 对 于 MyISAM 存储 引擎 来 说 ， 数据 和 索引 会 分 别 存放 到 与 表 同 名 的 .MYD 和 .MYI 文 件 中 。 
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这 些 文件 会 随 着 表 中 记录 的 增加 而 增 大 ， 它 们 的 大 小 受 限于 文件 系统 支持 的 最 大 文件 大 小 。 
8.5 MySQL 系统 数据 库 简 介 

前 文 提 到 了 MySQL 的 几 个 系统 数据 库 ， 这 几 个 数据 库 包 含 了 MySQL 服务 器 运行 过 程 中 
所 需 的 一 些 信 息 以 及 一 些 运行 状态 信息 ， 现 在 稍微 了 解 一 下 。 

e mysql : 这 个 数据 库 相当 重要 ， 它 存储 了 MySQL 的 用 户 账户 和 权限 信息 、 一 些 存储 
过 程 和 事件 的 定义 信息 、 一 些 运行 过 程 中 产生 的 日 志 信 息 、 一 些 帮 助 信息 以 及 时 区 信 
息 等 。 

e information schema: 这 个 数据 库 保存 着 MySQL 服务 器 维护 的 所 有 其 他 数据 库 的 信息 ， 
比如 有 哪些 表 、 哪 些 视图 、 哪 些 触 发 器 、 哪 些 列 、 哪 些 索引 等 。 这 些 信 息 并 不 是 真实 
的 用 户 数 据 ， 而 是 一 些 描述 性 信息 ， 有 时 候 也 称 之 为 元 数据 。 

e@ performance schema : 这 个 数据 库 主 要 保存 MySQL 服务 器 运行 过 程 中 的 一 些 状态 信 
息 ， 算 是 对 MySQL 服务 器 的 一 个 性 能 监控 。 它 包含 的 信息 有 统计 最 近 执 行 了 哪些 语 
句 ， 在 执行 过 程 的 每 个 阶段 都 花费 了 多 长 时 间 ， 内 存 的 使 用 情况 等 。 

@ sys : 这 个 数据 库 主要 是 通过 视图 的 形式 把 information schema 和 performance schema 
结合 起 来 ， 让 开发 人 员 更 方便 地 了 解 MySQL 服务 器 的 性 能 信息 。 

哈 ? 这 4 个 系统 数据 库 就 这 样 介绍 完了 ? 是 的 ,我 们 这 一 节 的 标题 中 写 的 就 是 简介 路 ! 如 

果真 的 要 路 曙 一 下 这 几 个 系统 库 的 使 用 ， 有 恐怕 又 是 一 本 书 的 篇 幅 了 。 这 里 只 是 因为 在 介绍 数据 
目录 时 过 到 了 它们 ， 为 了 内 容 的 完整 性 而 向 大 家 提 一 下 ， 具 体 如何 使 用 还 是 要 查询 相关 文档 。 


8.6 总结 


像 mnoDB、MYyYISAM 这 样 的 存储 引擎 都 是 把 数据 存储 在 文件 系统 上 。 
MySQL 服务 器 程序 在 启动 时 会 到 数据 目录 中 加 载 数据 ， 运 行 过 程 中 产生 的 数据 也 会 被 存 
储 到 数据 目录 中 。 系 统 变 量 datadir 表明 了 数据 目录 的 路 径 。 
每 个 数据 库 都 对 应 着 数据 目录 下 的 一 个 子 目 录 ， 该 子 目 录 中 包含 一 个 名 为 db.opt 的 文件 。 
这 个 文件 包含 了 该 数据 库 的 一 些 属性 ， 比 如 该 数据 库 的 字符 集 和 比较 规则 等 。 
对 于 InnoDB 存储 引擎 来 说 : 
@ ”如果 使 用 系统 表 空 间 存 储 表 中 的 数据 ， 那 么 只 会 在 该 表 所 在 数据 库 对 应 的 子 目录 下 创 
建 一 个 名 为 “ 表 名 .frm” 的 文件 ， 表 中 的 数据 会 存储 在 系统 表 空间 对 应 的 文件 中 ; 
@ 如果 使 用 独立 表 空间 存储 表 中 的 数据 ， 那 么 会 在 该 表 所 在 数据 库 对 应 的 子 目录 下 创建 
一 个 名 为 “ 表 名 .frm” 的 文件 和 一 个 名 为 “ 表 名 .ibd” 的 文件 ， 表 中 的 数据 会 存储 这 
个 “ 表 名 .ibd” 文 件 中 。 
对 于 MyISAM 存储 引擎 来 说 ， 会 在 该 表 所 在 数据 库 对 应 的 子 目录 下 创建 3 个 文件 。 
e 表 名 .frm : 表示 表 的 结构 文件 。 
e@e 表 名 .MYD : 表示 表 的 数据 文件 。 





,A ra | A i 


"mm. 





8.6 总 结 139 
ER 


e 表 名 .MYI : 表示 表 的 索引 文件 。 

数据 目录 中 除了 存储 用 户 数 据 外 ， 还 需要 存储 一 些 额外 的 文件 ， 包 括 : 

e 服务 器 进程 文件 ; 

@ 服务 器 日 志文 件 ; 

e SSL 和 RSA 证 书 与 密 钥 文件 。 

特定 的 文件 系统 会 对 MySQL 服务 器 程序 的 运行 产生 一 些 影响 ， 比 如 : 

® ”数据库 名 称 和 表 名 称 不 得 超过 文件 系统 所 允许 的 最 大 长 度 . 

e 特殊 字符 的 问题 ， 

e 文件 长 度 受 文件 系统 最 大 长 度 的 限制 。 

为 了 存储 MySQL 服务 器 运行 过 程 中 所 需 的 信息 以 及 运行 状态 信息 ， 设 计 MySQL 的 大 叔 
讽 计 了 下 面 这 些 系 统 数 据 库 : 

@ mysql; 

e information Schema ; 

@ performance Schema ; 

@ SYS。 
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通过 前 面 的 内 容 大 家 知道 ， 表 空间 是 一 个 抽象 的 概念 ， 对 于 系统 表 空 间 来 说 ， 对 应 着 文 
件 系统 中 一 个 或 多 个 实际 文件 ， 对 于 每 个 独立 表 空 间 来 说 ， 对 应 着 文件 系统 中 一 个 名 为 “ 表 
名 .ibd” 的 实际 文件 。 大 家 可 以 把 表 空 间 想象 成 被 切 分 为 许多 个 页 的 池子 ， 当 想 为 茶 个 表 插 入 
一 条 记录 的 时 候 ， 就 从 池子 中 捞 出 一 个 对 应 的 页 把 数据 写 进去 。 本 章 内 容 会 深入 表 空 间 的 各 个 
细节 ， 带 领 大 家 在 InnoDB 表 空 间 的 池子 中 畅游 。 由 于 本 章 涉及 比较 多 的 概念 ， 虽 然 这 些 概念 
都 不 难 理解 ， 但 是 由 于 相互 依赖 ， 奉 劝 大 家 千 万 别 跳 着 阅读 本 章 内 容 。 


9.1 回忆 一 些 旧 知 识 


9.1.1 页 面 类 型 


再 一 次 强调 ，InnoDB 是 以 页 为 单位 管理 存储 空间 的 。 我 们 的 聚 筷 索引 〈 也 就 是 完整 的 表 
数据 ) 和 其 他 的 二 级 索引 都 是 以 B+ 树 的 形式 保存 到 表 空 间 中 ， 而 B+ 树 的 节点 就 是 数据 页 。 
| 前面 章 节 说 过 ， 这 个 数据 页 的 类 型 名 其 实 是 FIL_PAGE_INDEX。 除 了 这 种 存放 索引 数据 的 页 。 
面 类 型 之 外 ，InnoDB 也 针对 不 同 的 目的 设计 了 若干 种 不 同类 型 的 页 面 。 为 了 唤醒 大 家 的 记忆 ， 
我 们 再 一 次 把 各 种 常用 的 页 面 类 型 拿 出 来 ， 如 表 9-1 所 示 ， 





表 9-1 常用 的 页 面 类 型 
类 型 名 称 描述 | 
FIL PAGE TYPE ALLOCATED 最 新 分 配 ， 还 未 使 用 : 
FIL PAGE UNDO LOG undo 日 志 页 
FIL PAGE INODE 存储 段 的 信息 
FIL PAGE IBUF FREE LIST Change Buffer 空闲 列表 
FIL PAGE IBUF BITMAP Change Buffer 的 一 些 属性 
FIL PAGE TYPE SYS 存储 一 些 系统 数据 
FIL PAGE TYPE TRX SYS 事务 系统 数据 
FIL PAGE TYPE FSP HDR 表 空 间 头 部 信息 
FIL PAGE TYPE XDES 存储 区 的 一 些 属性 
FIL PAGE TYPE BLOB 溢出 页 
FIL_PAGE_INDEX 索引 页 ， 也 就 是 我 们 说 的 数据 页 


由 于 页 面 类 型 的 名 称 前 面 都 有 一 个 FIL PAGE 或 FIL PAGE TYPE 的 前 级 ， 简 便 起 见 ， 后 


OPC 


| 
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文 在 啼 胡 页 面 类 型 时 将 把 这 些 前 缀 省 略 掉 。 比 如 将 FIL PAGE TYPE ALLOCATED 类 型 称 为 
ALLOCATED 类 型 ， 将 FIL PAGE _ INDEX 类 型 称 为 INDEX 类型。 


9.1.2 页 面 通用 部 分 


前 面 章节 讲 过 ， 数 据 页 (也 就 是 INDEX 类 型 的 页 ) 由 7 部 分 组 成 ， 其 中 有 两 个 部 分 是 所 
有 类 型 的 页 面 都 通用 的 。 考 虑 到 大 家 应 该 不 会 记 住 前 面 章节 中 的 每 一 句 话 ， 所 以 这 里 再 强调 一 
遍 。 所 有 类 型 的 页 面 都 有 图 9-1 所 示 的 这 种 通用 结构 。 


38B 





不 同类 型 的 页 面 的 这 个 
区 域 的 作用 是 不 同 的 





9-1 通用 页 结构 示意 图 
: 从 图 9-1 中 可 以 看 出 ， 所 有 基 型 的 页 都 会 包 售 下 面 两 个 部 分 。 

e@ File Header : 记录 页 面 的 一 些 通用 信息 。 

e@ File Trailer : 校 验 页 是 否 完整 ， 保 证 页 面 在 从 内 存 刷新 到 磁盘 后 内 容 是 相同 的 。 

对 于 File Trailer 不 再 做 过 多 强调 ， 如 果 大 家 不 记得 了 ， 再 自己 复习 一 下 第 5 章 的 内 容 。 我 
们 这 里 再 强调 一 遍 File Header 的 各 个 组 成 部 分 ， 如 表 9-2 所 示 。 


表 9-2 File Header 的 各 个 组 成 部 分 


名 称 占用 空间 大 小 描述 


EM 
人 


在 MySQL 的 版 本 低 于 4.0.14 时 ， 该 属性 表示 
FIL PAGE SPACE OR CHKSUM | 4 字 节 本 页 面 所 在 的 表 空 间 ID ; 在 之 后 的 版 本 中 ， 
| 该 属性 表示 页 的 校 验 和 (checksum 值 ) 
FIL PAGE OFFSET 4 字 节 页 号 
FIL PAGE PREV 上 一 个 页 的 页 号 
FIL PAGE NEXT 下 一 个 页 的 页 号 
页 面 被 最 后 修改 时 对 应 的 LSN (Log Sequence 
FIL PAGE TYPE 该 页 的 类 型 
仅 在 系统 表 空 间 的 第 一 个 页 中 定义 ， 代 表 文 件 
a a 至 少 被 刷新 到 了 对 应 的 LSN 值 
FIL PAGE ARCH LOG NO OR 
_LOG NO OR_| rs 


EE 
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现在 除了 名 称 中 带 有 LSN 的 两 个 字段 大 家 可 能 看 不 懂 以 外 ， 其 他 字段 衣 定 都 相当 熟 芒 了 ， 


不 过 我 们 仍 要 强调 这 人 么 几 点 。 


e 表 空 间 中 的 每 一 个 页 都 对 应 着 一 个 页 号 ， 也 就 是 FIL PAGE OFFSET， 我 们 可 以 通过 这 个 


页 号 在 表 空 间 中 快速 定位 到 指定 的 页 面 。 这 个 页 号 由 4 字 节 组 成 ， 也 就 是 32 位， 所 以 一 个 
表 空间 最 多 可 以 拥有 22 个 页 。 如 果 按 照 页 的 默认 大 小 为 16KB 来 算 ， 一 个 表 空 间 最 多 支持 
64TB 的 数据 。 表 空间 中 第 一 个 页 的 页 号 为 0， 之 后 的 页 号 分 别 是 1、2、3……， 依 此 类 推 。 

e@e 某 些 类 型 的 页 可 以 组 成 链表 ， 链 表 中 相 邻 的 两 个 页 面 的 页 号 可 以 不 连续 ， 也 就 是 说 它 
们 可 以 不 按照 在 表 空 间 中 的 物理 位 置 相 邻 存 储 ， 而 是 根据 FIL PAGE PREV 和 FIL_ 
PAGE NEXT 来 存储 上 一 个 页 和 下 一 个 页 的 页 号 。 需 要 注意 的 是 ， 这 两 个 字段 主要 是 
用 于 INDEX 类 型 的 页 ， 也 就 是 前 文 讲 到 的 数据 页 ， 在 建立 B+ 树 后， 使 用 这 两 个 字段 
为 每 层 节点 建立 双向 链表 ; 一 般 类 型 的 页 不 使 用 这 两 个 字段 。 

e 每 个 页 的 类 型 由 FIL PAGE TYPE 表示 ， 比 如 针对 数据 页 ， 该 字段 的 值 就 是 0x45BF. 
后 文 会 介绍 各 种 不 同类 型 的 页 ; 不 同类 型 的 页 在 该 字段 上 的 值 是 不 同 的 。 


9.2 独立 表 空间 结构 


我 们 知道 ，InnoDB 支持 许多 种 类 型 的 表 空间 。 本 章 重 点 关注 独立 表 空 间 和 系统 表 空 间 的 


结构 。 它 们 的 结构 比较 相似 ， 但 是 由 于 系统 表 空 间 额外 包含 了 一 些 关 于 整个 系统 的 信息 ， 所 以 
我 们 先 挑 简单 一 点 儿 的 独立 表 空间 来 啼 曙 ， 稍 后 再 说 系统 表 空 间 的 结构 。 


9.2.1 区 的 概念 
表 空 间 中 的 页 实在 是 太 多 了 ， 为 了 更 好 地 管理 这 些 页 面 ， 设 计 InnoDB 的 大 叔 提 出 了 区 


(extent) 的 概念 。 对 于 16KB 的 页 来 说 ， 连 续 的 64 个 页 就 是 一 个 区 ， 也 就 是 说 一 个 区 默认 占 
用 1MB 空间 大 小 。 无 论 是 系统 表 空 间 还 是 独立 表 空 间 ， 都 可 以 看 成 是 由 者 干 个 连续 的 区 组 成 
的 ， 每 256 个 区 被 划分 成 一 组 ， 如 图 9-2 所 示 。 


表 空 间 结构 





每 256 个 extent 为 一 组 
每 256 个 extent 为 一 组 
图 9-2 表 空间 结构 
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其 中 ，extent 0~extent 255 这 256 个 区 算是 第 一 个 组 ，extent 256~extent 511 这 256 个 区 算是 第 
二 个 组 ，extent 512~extent 767 这 256 个 区 算是 第 三 个 组 (图 9-2 中 并 未 画 全 第 三 个 组 中 所 有 的 区 ); 
依 此 类 推 ， 可 以 划分 更 多 的 组 。 这 些 组 的 头 几 个 页 面 的 类 型 都 是 类 似 的 ， 如 图 9-3 所 示 。 


extent 0 的 各 个 页 


~ 人 /9 






表 空 间 结 构 
二 extent0(IMB) 


extent 512 的 各 个 页 


- 





图 9-3 每 个 组 中 头 几 个 页 面 的 类 型 


从 图 9-3 中 能 得 到 如 下 信息 。 
e 第 一 个 组 最 开始 的 3 个 页 面 的 类 型 是 固定 的 。 也 就 是 说 extent 0 这 个 区 最 开始 的 3 个 
页 面 的 类 型 是 固定 的 ， 分 别 如 下 。 
@ FSP_HDR : 这 个 类 型 的 页 面 用 来 登记 整个 表 空 间 的 一 些 整体 属性 以 及 本 组 所 有 的 
区 (也 就 是 extent 0~extent 255 这 256 个 区 ) 的 属性 ， 稍 后 详细 啼 明 。 需 要 注意 的 
一 点 是 ， 整 个 表 空 间 只 有 一 个 FSP HDR 类 型 的 页 面 。 
@ IJBUF BITMAP : 这 个 类 型 的 页 面 用 来 存储 关于 Change Buffer 的 一 些 信息 。 当 然 ， 
大 家 现在 不 用 知道 啥 是 Change Buffer。 
@ INODE : 这 个 类 型 的 页 面 存储 了 许多 称 为 INODE Entry 的 数据 结构 。 现 在 大 家 不 
需要 知道 啥 是 INODE Entry， 后 面 会 说 到 你 吐 。 
e 其 余 各 组 最 开始 的 2 个 页 面 的 类 型 是 固定 的 。 也 就 是 说 extent 256、extent 512*…… 这 些 
区 最 开始 的 2 个 页 面 的 类 型 是 固定 的 ， 分 别 如 下 。 
@ XDES : 全 称 是 extent descriptor， 用 来 登记 本 组 256 个 区 的 属性 。 也 就 是 说 ， 对 于 在 
extent 256 区 中 的 该 类 型 的 页 面 来 说 ， 存 储 的 就 是 extent 256~extent 511 这 些 区 的 属性 ; 


i 
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对 于 在 extent 512 区 中 的 该 类 型 的 页 面 来 说 ， 存 储 的 就 是 extent 512 ~ extent 767 这 些 
区 的 属性 。 前 面 介绍 的 FSP HDR 类 型 的 页 面 其 实 与 XDES 类 型 的 页 面 的 作用 类 似 ， 
只 不 过 FSP_HDR 类 型 的 页 面 还 会 额外 存储 一 些 表 空间 的 属性 。 
m IBUF BITMAP : 前 面 介 绍 过 了 ， 不 再 歼 述 。 
好 了 ， 宏 观 的 结构 介绍 完了 ， 里 面 的 名 词 太 多 ， 大 家 也 不 用 记 清 楚 ， 只 要 大 致 记得 这 个 结 
论 就 好 了 : 表 空 间 被 划分 为 许多 连续 的 区 ， 每 个 区 默认 由 64 个 页 组 成 ， 每 256 个 区 划分 为 一 
组 ， 每 个 组 的 最 开始 的 几 个 页 面 类 型 是 固定 的 。 


9.2.2 有 段 的 概念 


为 啥 好 端 端 地 提出 一 个 区 (extent) 的 概念 呢 ? 我 们 以 前 分 析 问 题 的 套路 都 是 这 样 的 : 表 
中 的 记录 存储 到 页 里 面 ， 然 后 页 作为 节点 组 成 B+ 树 ， 这 个 B+ 树 就 是 索引 ， 然 后 再 说 一 堆 聚 
簇 索引 和 二 级 索引 的 区 别 。 这 套路 也 没 哈 不 妥 的 呀 。 

是 的 ， 如 果 表 中 的 数据 量 很 少 ， 比 如 表 中 只 有 几 十 条 、 几 百 条 数据 ， 的 确 用 不 到 区 的 概 
念 。 因 为 简单 的 几 个 页 就 能 把 对 应 的 数据 存储 起 来 ， 但 是 架 不 住 表 里 的 记录 越 来 越 多 呀 。 

表 里 的 记录 多 了 又 怎样 ? B+ 树 每 一 层 中 的 页 都 会 形成 一 个 双 回 链表 ，File Header 中 的 
FIL PAGE PREV 和 FIL PAGE NEXT 字段 不 就 是 为 了 形成 双向 链表 而 设置 的 么 ? 

是 的 ， 大 家 说 的 都 对 。 从 理论 上 说 ， 不 引入 区 的 概念 ， 而 只 使 用 页 的 概念 对 存储 引擎 的 运 
行 并 没 哈 影响， 但 是 我 们 来 考虑 下 面 这 个 场景 。 

我 们 每 向 表 中 插入 一 条 记录 ， 本 质 上 就 是 辣 该 表 的 聚 簇 索 引 以 及 所 有 二 级 索引 代表 的 B+ 
树 的 节点 中 插入 数据 。 而 B+ 树 每 一 层 中 的 页 都 会 形成 一 个 双向 链表 ， 如 果 以 页 为 单位 来 分 配 
存储 空间 ， 双 向 链表 相 邻 的 两 个 页 之 间 的 物理 位 置 可 能 离 得 非常 远 。 前 面 提 到 使 用 B+ 树 来 减 
少 记录 的 扫描 行 数 的 过 程 是 通过 一 些 搜 索 条 件 到 B+ 树 的 叶子 节点 中 定位 到 第 一 条 符合 该 条 件 
的 记录 (对 于 全 表 扫 描 来 说 就 是 定位 到 第 一 个 叶子 节点 的 第 一 条 记录 )， 然 后 沿 着 由 记录 组 成 
的 单 向 链表 以 及 由 数据 页 组 成 的 双向 链表 一 直 问 后 扫 擅 就 可 以 了 。 如 果 双 向 链表 中 相 邻 的 两 
个 页 的 物理 位 置 不 连续 ， 对 于 传统 的 机 械 硬 盘 来 说 ， 需 要 重新 定位 磁头 位 置 ， 也 就 是 会 产生 随 
机 IO， 这 样 会 影响 磁盘 的 性 能 。 所 以 我 们 应 该 尽量 让 页 面 链 表 中 相 邻 的 页 的 物理 位 置 也 相 邻 ， 
这 样 在 扫描 叶子 节点 中 大 量 的 记录 时 才 可 以 使 用 顺序 IO。 


+ -这 里 使 用 的 是 六 本 >” 这个 词 ， 其 实 责 面相 人 的 页 的 页 于 不 过 人 
小 贴 二 Te 并 不 会 让 程序 无 法 运行 只 是 对 性 能 有 些 影 响 要 了 
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所 以 才 引 入 了 区 (extent) 的 概念 。 一 个 区 就 是 在 物理 位 置 上 连续 的 64 个 页 (区 里 页 面 的 
页 号 都 是 连续 的 )。 在 表 中 的 数据 量 很 大 时 ， 为 某 个 索引 分 配 空间 的 时 候 就 不 再 按照 页 为 单位 
分 配 了 ， 而 是 按照 区 为 单位 进行 分 配 。 甚 至 在 表 中 的 数据 非常 非常 多 的 时 候 ， 可 以 一 次 性 分 配 
多 个 连续 的 区 。 虽 然 这 可 能 造成 一 点 点 空间 的 浪费 《数据 不 足以 填充 满 整 个 区 ) ， 但 是 从 性 能 
角度 看 ， 可 以 消除 很 多 的 随机 IO 一 一 功 大 于 过 嘛 ! 

事情 到 这 里 就 结束 了 么 ? 太 天 真 了 ， 我 们 在 使 用 B+ 树 执行 查询 时 只 是 在 扫描 叶子 节点 的 
记录 ， 而 如 果 不 区 分 叶子 节点 和 非 叶子 节点 ， 统 统 把 节点 代表 的 页 面 放 到 申请 到 的 区 中 ， 扫 描 
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效果 就 大 打折 扣 了 。 所 以 ， 设 计 InnoDB 的 大 叔 对 B+ 树 的 叶子 节点 和 非 叶 子 节点 进行 了 区 别 
对 待 ， 也 就 是 说 叶子 节点 有 自己 独 有 的 区 ， 非 叶子 节点 也 有 自己 独 有 的 区 。 存 放 叶 子 节点 的 区 
的 集合 就 算是 一 个 段 (segment) ， 存 放 非 叶子 节点 的 区 的 集合 也 算是 一 个 段 。 也 就 是 说 一 个 过 
引 会 生成 两 个 段 : 一 个 叶子 节点 段 和 一 个 非 叶 子 节点 段 。 

默认 情况 下 ， 一 个 使 用 InnoDB 存储 引擎 的 表 只 有 一 个 聚 簇 索 引 ， 一 个 索引 会 生成 两 个 段 。 
而 段 是 以 区 为 单位 申请 存储 空间 的 ， 一 个 区 默认 占用 1MB 存储 空间 。 所 以 ， 默 认 情况 下 一 个 
只 存放 了 几 条 记录 的 小 表 也 需要 ?MB 的 存储 空间 么 ? 以 后 每 次 添加 一 个 索引 都 要 多 申请 2MB 
的 存储 空间 么 ? 这 对 于 存储 记录 比较 少 的 表 来 说 简直 是 天 大 的 浪费 。 设 计 InnoDB 的 大 叔 都 插 
节俭 的 ， 当 然 也 考虑 到 了 这 种 情况 。 这 个 问题 的 症结 在 于 现在 为 止 我 们 介绍 的 区 都 是 非常 纯粹 
的 ， 也 就 是 一 个 区 被 整个 分 配给 某 一 个 段 ， 或 者 说 区 中 的 所 有 页 面 都 是 为 了 存储 同一 个 段 的 数 
据 而 存在 的 。 即 使 段 的 数据 填 不 满 区 中 所 有 的 页 面 ， 剩 下 的 页 面 也 不 能 挪 作 他 用 。 现 在 为 了 考 
虑 “以 完整 的 区 为 单位 分 配给 某 个 段 时 ， 对 于 数据 量 较 小 的 表 来 说 太 浪 费 存储 空间 ”这 种 情况 ， 
设计 InnoDB 的 大 叔 提出 了 碎片 (fragment) 区 的 概念 。 也 就 是 在 一 个 碎片 区 中 ， 并 不 是 所 有 
的 页 都 是 为 了 存储 同一 个 段 的 数据 而 存在 的 ， 碎 片区 中 的 页 可 以 用 于 不 同 的 目的 ， 比 如 有 些 页 
属于 段 A， 有 些 页 属于 段 B， 有 些 页 甚至 不 属于 任何 段 。 碎 片区 直属 于 表 空 间 ， 并 不 属于 任何 
一 个 段 。 所 以 此 后 为 某 个 段 分 配 存储 空间 的 策略 是 这 样 的 : 

e@ 在 刚 开 始 向 表 中 插入 数据 时 ， 段 是 从 某 个 碎片 区 以 单个 页 面 为 单位 来 分 配 存储 空 

间 的 ; 
e@ 当 某 个 段 已 经 占用 了 32 个 碎片 区 页 面 之 后 ， 就 会 以 完整 的 区 为 单位 来 分 配 存储 空间 
(原先 占用 的 碎片 区 页 面 并 不 会 被 复制 到 新 申请 的 完整 的 区 中 )。 

所 以 ， 段 现在 不 能 仅 定义 为 某 些 区 的 集合 ， 更 精确 的 来 说 ， 应 该 是 某 些 零散 的 页 面 以 及 
一 些 完整 的 区 的 集合 。 除 了 索引 的 叶子 节点 段 和 非 叶 子 节点 段 之 外 ，InnoDB 中 还 有 为 存储 
一 些 特 殊 的 数据 而 定义 的 段 ， 比 如 回 滚 段 〈 后 文 在 介绍 undo 日 志 时 会 详细 虹 归 )。 当 然 我 


们 现在 并 不 关心 别 的 类 型 的 段 ， 只 需要 知道 段 是 一 些 零散 的 页 面 以 及 一 些 完整 的 区 的 集合 就 
好 子 ， | 


9.2.3 区 的 分 类 


我 们 知道 表 空 间 是 由 若干 个 区 组 成 的 。 这 些 区 大 致 可 以 分 为 4 种 类 型 。 

。 空闲 的 区 : 现在 还 没有 用 到 这 个 区 中 的 任何 页 面 。 

e 有 剩余 空闲 页 面 的 碎片 区 : 表示 碎片 区 中 还 有 可 被 分 配 的 空闲 页 面 。 

e 没有 剩余 空闲 页 面 的 碎片 区 : 表示 碎片 区 中 的 所 有 页 面 都 被 分 配 使 用 ， 没 有 空闲 页 面 。 

e 附属 于 某 个 段 的 区 : 我 们 知道 ， 每 一 个 索引 都 可 以 分 为 叶子 节点 段 和 非 叶 子 节点 段 。 
除 此 之 外 ，InnoDB 还 会 另外 定义 一 些 特殊 用 途 的 段 。 当 这 些 段 中 的 数据 量 很 大 时 ， 将 
使 用 区 作为 基本 的 分 配 单位 ， 这 些 区 中 的 页 面 完 全 用 于 存储 该 段 中 的 数据 〈 而 碎片 区 
可 以 存储 属于 不 同 段 的 数据 )。 


这 4 种 类 型 的 区 也 可 以 称 为 区 的 4 种 状态 (State)， 设 计 InnoDB 的 大 叔 为 这 4 种 状态 的 
区 定义 了 特定 的 名 词 ， 如 表 9-3 所 示 。 
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表 9-3 区 的 4 种 状态 


状态 名 含义 
FREE 空闲 的 区 
FREE FRAG 有 剩余 空闲 页 面 的 碎片 区 
FULL FRAG 没有 剩余 空闲 页 面 的 碎片 区 
FSEG 附属 于 某 个 段 的 区 


需要 强调 的 是 ， 处 于 FREE、FREE FRAG 以 及 FULL FRAG 这 3 种 状态 的 区 都 是 独立 的 ， 
算是 直属 于 表 空 间 ; 而 处 于 FSEG 状态 的 区 是 附属 于 某 个 段 的 。 


加 如 果 把 表 空 间 比 作 一 个 集团 军 ， 段 就 相当 于 师 ， 区 就 相当 于 团 : 一般 来 说 ， 团 都 是 素 
-@ 付 -属于 某 个 师 ， 就 像 是 处 于 FSEG 的 区 全 都 隶属 于 某 个 段 ; 而 处 于 FREE、FREE FRAG 以 及 
外 了 十 ”FULL FRAG 这 3 种 状态 的 区 却 直接 隶属 于 表 空 间 ， 就 像 独 立 团 直接 听命 于 军 部 一 样 .说 

到 独立 团 我 就 不 得 不 说 二 营 长 ， 说 到 二 营 长 ， 我 就 不 得 不 说 …… 好 吧 ， 停 止 扯 犊 子 . 


为 了 方便 管理 这 些 区 ， 设 计 InnoDB 的 大 叔 设计 了 一 个 称 为 XDES Entry (Extent Descriptor 
Entry) 的 结构 。 每 一 个 区 都 对 应 着 一 个 XDES Entry 结构 ， 这 个 结构 记录 了 对 应 的 区 的 一 些 属 
性 。 我 们 通过 图 9-4 大 致 了 解 一 下 这 个 结构 。 


XDES Entry 结 构 示 意图 List Node 结 构 示意 图 


和 


ode Page Nambet f4 字 节 )| | 这 两 个 字段 是 指向 
= | 前 一 个 IDES Entry 的 指针 





主因)|| 这 两 个 字段 是 指向 
中 | 后 一 个 XDES Entry 的 指针 


1 


图 9-4 XDES Entry 的 结构 示意 图 


从 图 94 可 以 看 出 ，XDES Entry 结构 有 40 字 节 ， 大 致 分 为 4 个 部 分 ， 各 个 部 分 的 含义 如 下 所 示 。 
e Segment ID (8 字 节 ): 每 一 个 段 都 有 一 个 唯一 的 编号 ， 用 ID 表示 。Segment ID 字段 表示 
的 束 是 该 区 所 在 的 段 ， 前 提 是 该 区 已 经 被 分 配给 某 个 段 了 ， 不 然 该 字段 的 值 没 有 意义 。 

e List Node (12 字 节 ): 这 个 部 分 可 以 将 若干 个 XDES Entry 结构 串 连 成 一 个 链表 。List 

Node 的 结构 如 图 9-5 所 示 。 


这 两 个 字段 是 指向 
前 一 个 XDES Entry 的 指针 


Next Node Page NU (4 字 节 ) | | 这 两 个 字段 是 指向 
= rt | 后 一 个 XDES Entry 的 指针 





图 9-5 List Node 的 结构 示意 图 
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| 
如 打 我 们 想 定位 表 空 间 内 的 某 一 个 位 置 ， 只 需 指定 页 号 以 及 该 位 置 在 指定 页 号 中 的 页 内 偏 
移 量 即 可 。 


@ Pre Node Page Number 和 Pre Node Offset 的 组 合 就 是 指向 前 一 个 XDES Entry 的 
指针 。 


Next Node Page Number 和 Next Node Offset 的 组 合 就 是 指向 后 一 个 XDES Entry 的 
指针 。 


把 一 些 XDES Entry 结构 串 连 成 一 个 链表 有 喻 用 ? 少 安 竹 躁 ， 我们 稍 后 再 啼 明 XDES Entry 
结构 组 成 的 链表 问题 。 

e State (4 字 节 ): 这 个 字段 表明 区 的 状态 。 可 选 的 值 分 别 是 FREE、FREE FRAG、FULL 
FRAG 和 FSEG (也 就 是 前 文 介绍 的 那 4 个 )。 具 体 含义 请 见 前 文 ， 这 里 就 不 多 啼 归 了 。 

e@ Page State Bitmap 〈16 字 节 ): 这 个 部 分 共 占 用 16 字 节 ， 也 就 是 128 位 。 一 个 区 默认 有 
64 个 页 ， 这 128 位 被 划分 为 64 个 部 分 ， 每 个 部 分 有 2 位 ， 对 应 区 中 的 一 个 页 。 比 如 
Page State Bitmap 部 分 的 第 1 位 和 第 2 位 对 应 着 区 中 的 第 1 个 页 面 ， 第 3 位 和 第 4 位 对 
应 着 区 中 的 第 2 个 页 面 …… 第 127 位 和 128 位 对 应 着 区 中 的 第 64 个 页 面 。 这 2 个 位 中 
的 第 1 位 表示 对 应 的 页 是 否 是 空闲 的 ， 第 2 位 还 没有 用 到 。 

1. XDES Entry 链表 


到 现在 为 止 ， 我 们 已 经 提出 的 概念 五 花 八 门 一 一 区 、 段 、 碎 片区 、 附 属于 段 的 区 、XDES 
Entry 结构 。 我 们 把 事情 搞 得 这 么 麻烦 ， 初 心 仅仅 是 想 减 少 随机 IO， 而 又 不 至 于 让 数据 量 少 的 
表 浪费 空间 。 我 们 知道 ， 向 表 中 插入 数据 本 质 上 就 是 向 表 中 各 个 索引 的 叶子 节点 段 、 非 叶子 节 
点 段 插 入 数据 。 我 们 也 知道 了 不 同 的 区 有 不 同 的 状态 。 现 在 再 回 到 最 初 的 起 点 ， 返 一 授 向 某 个 
段 中 插入 数据 时 ， 申 请 新 页 面 的 过 程 。 
当 段 中 数据 较 少时 ， 首 先 会 查看 表 空 间 中 是 否 有 状态 为 FREE FRAG 的 区 (也 就 是 查找 
还 有 空闲 页 面 的 碎片 区 )。 如 果 找 到 了 ， 那 么 从 该 区 中 取 一 个 零散 页 把 数据 揪 进 去， 和 否则 到 表 
空间 中 申请 一 个 状态 为 FREE 的 区 〈 也 就 是 空闲 的 区 )， 把 该 区 的 状态 变 为 FREE FRAG， 然 
后 从 该 新 申请 的 区 中 取 一 个 零散 页 把 数据 插 进去 。 之 后 ， 在 不 同 的 段 使 用 零散 页 的 时 候 都 从 该 
区 中 取 ， 直 到 该 区 中 没有 空闲 页 面 ， 然 后 该 区 的 状态 就 变 成 了 FULL_FRAG。 
现在 的 问题 是 我 们 怎么 知道 表 空 间 中 哪些 区 的 状态 是 FREE， 哪些 区 的 状态 是 FREE FRAG， 
哪些 区 的 状态 是 FULL FRAG 呢 ? 要 知道 表 空 间 是 可 以 不 断 增 大 的 ， 当 增长 到 GB 级 别 的 时 候 ， 
区 的 数量 也 就 上 千 了 ， 我 们 总 不 能 每 次 都 遍历 这 些 区 对 应 的 XDES Entry 结构 吧 ? 这 就 到 了 XDES 
Enty 中 的 List Node 部 分 发 挥 奇效 的 时 候 了 。 我 们 可 以 通过 List Node 中 的 指针 做 下 面 3 件 事 。 
e 通过 List Node 把 状态 为 FREE 的 区 对 应 的 XDES Entry 结构 连接 成 一 个 链表 ， 这 个 链 
表 称 为 FREE 链表 。 

e 通过 List Node 把 状态 为 FREE FRAG 的 区 对 应 的 XDES Entry 结构 连接 成 一 个 链表 ， 
这 个 链表 称 为 FREE FRAG 链表 。 

e 通过 List Node 把 状态 为 FULL FRAG 的 区 对 应 的 XDES Entry 结构 连接 成 一 个 链表 ， 
这 个 链表 称 为 FULL FRAG 链表 。 


这 样 一 来 ， 每 当 想 查找 一 个 FREE FRAG 状态 的 区 时 ， 就 直接 把 FREE FRAG 链表 的 头 
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节点 拿 出 来 ， 从 这 个 节点 对 应 的 区 中 取 一 些 零散 页 来 插入 数据 。 当 这 个 节点 对 应 的 区 中 没有 空 4 
闲 的 页 面 时 ， 就 修改 它 的 State 字段 的 值 ， 然 后 将 其 从 FREE_ FRAG 链表 中 移 到 FULL_FRAG 
链表 中 。 同 理 ， 如 果 FREE FRAG 链表 中 一 个 节点 都 没有 ， 那 么 就 直接 从 FREE 链表 中 取 一 个 
节点 移动 到 FREE_FRAG 链表 ， 并 修改 该 节点 的 STATE 字段 值 为 FREE_FRAG， 然 后 再 从 这 
个 节点 对 应 的 区 中 获取 零散 页 就 好 了 。 | 
当 段 中 的 数据 已 经 占 满 了 32 个 零散 的 页 后 ， 就 直接 申请 完整 的 区 来 插入 数据 了 。 
我 们 怎么 知道 哪些 区 属于 哪个 段 呢 ? 再 遍历 各 个 XDES Entry 结构 ? 遍历 是 不 可 能 遍历 的 ， 
这 辈子 都 不 可 能 遍历 的 ， 我 们 可 以 基于 链表 来 快速 查找 只 属于 某 个 段 的 区 呀 。 所 以 我 们 把 状态 
为 FSEG 的 区 对 应 的 XDES Entry 结构 都 加 入 到 一 个 链表 中 ? 不 对 呀 ， 不 同 的 段 哪 能 共用 一 个 
区 昵 ? 你 想 把 索引 a 的 叶子 节点 段 和 索引 bb 的 叶子 节点 段 都 存储 到 一 个 区 中 么 ? 显然， 我 们 想 | 
要 每 个 段 都 有 它 独立 的 链表 ， 所 以 可 以 根据 段 号 (Segment ID〉 来 建立 链表 。 有 多 少 个 段 就 建 。 
多 少 个 链表 ?, 好 像 也 有 点 问题 。 因 为 一 个 段 中 可 以 有 好 多 个 区 ， 有 的 区 是 完全 空 亲 的 ， 有 的 区 
还 有 一 些 空闲 页 面 可 以 使 用 ， 有 的 区 已 经 没有 空闲 页 面 可 以 使 用 了 。 所 以 我 们 有 必要 继续 细 
分 ， 设 计 InnoDB 的 大 叔 为 每 个 段 中 的 区 对 应 的 XDES Entry 结构 建立 了 3 个 链表 。 
@ FREE 链表 : 同一 个 段 中 ， 所 有 页 面 都 是 空闲 页 面 的 区 对 应 的 XDES Entry 结构 会 被 加 
入 到 这 个 链表 中 。 注 意 ， 这 与 直属 于 表 空 间 的 FREE 链表 区 别 开 了 ， 此 处 的 FREE 链 
表 是 附属 于 某 个 段 的 链表 。 
e NOT FULL 链表 : 同一 个 段 中 ， 仍 有 空闲 页 面 的 区 对 应 的 XDES Entry 结构 会 被 加 入 
到 这 个 链表 中 。 
e@ FULL 链表 : 同一 个 段 中 ， 已 经 没有 空闲 页 面 的 区 对 应 的 XDES Entry 结构 会 被 加 入 到 
这 个 链表 中 。 
再 强调 一 遍 ， 每 一 个 索引 都 对 应 两 个 段 ， 每 个 段 都 会 维护 上 述 3 个 链表 。 比 如 下 面 这 个 表 : 1 
CREATE TABLE 七 ( 
ei INT NOT NULL AUTO INCREMENT., 
c2 VARCHAR(100), 
c3 VRRCHRR (100) ， 
PRIMARY KEY (cl)， 
KEY idx c2 (c2) 
) ENGINE=InnoDB; 
表 t 共 有 两 个 索引 : 一 个 聚 簇 索 引 和 一 个 二 级 索引 idx c2。 所 以 这 个 表 共 有 4 个 段 ， 每 个 
段 都 会 维护 上 述 3 个 链表 ， 总 共 是 12 个 链表 。 再 加 上 前 文 说 过 的 直属 于 表 空间 的 3 个 链表 ， 
整个 独立 表 空 间 共 需要 维护 15 个 链表 。 





~ 和 im < DS 和 A 二 入 
P= 广 -= 人 I hr 


、 当然， je noDB a at 的 是 大望 大 家 窜 和， 
小 贴 士 、B 3 人 a 全 守 、 
区 链表 基 节 点 


前 面 光 介绍 了 一 堆 链表 ， 可 我 们 怎么 找到 这 些 链表 呢 ， 或 者 说 怎么 找到 某 个 链表 的 头 节点 
或 者 尾 节点 在 表 空 间 中 的 位 置 呢 ? 设计 InnoDB 的 大 权 当 然 考虑 到 了 这 个 问题 ， 他 们 设计 了 一 
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| 
个 名 为 List Base Node (链表 基 节 点 ) 的 结构 。 这 个 结构 中 包含 了 链表 的 头 节点 和 尾 节点 的 指 
针 以 及 这 个 链表 中 包含 了 多 少 个 节点 的 信息 。 链表 基 节 点 的 示意 图 如 图 9-6 所 示 。 


这 两 个 字段 是 指向 XDES Entry 
链表 头 节 点 的 指针 


这 两 个 字段 是 指向 XDES Entry 
|| 链表 尾 节 点 的 指针 
t Node Offsct (2 学 RS 


图 9-6 List Base Node 的 结构 示意 图 
| 





前 面 介绍 的 每 个 链表 都 对 应 这 么 一 个 List Base Node 结构 ， 其 中 : 

e List Length 表明 该 链表 一 共有 多 少 个 节点 ; 

® First Node Page Number 和 First Node Offset 表明 该 链表 的 头 节点 在 表 空间 中 的 位 置 ， 

® Last Node Page Number 和 Last Node Offset 表明 该 链表 的 尾 节点 在 表 空间 中 的 位 置 。 

我 们 一 般 把 某 个 链表 对 应 的 List Base Node 结构 放置 在 表 空间 中 的 固定 位 置 (具体 位 置 会 
在 后 面 介绍 )， 这 样 就 可 以 很 容易 地 定位 某 个 链表 了 。 

3. 链表 小 结 


| 
综 上 所 述 ， 表 空间 是 由 若干 个 区 组 成 的 ， 每 个 区 都 对 应 一 个 XDES Entry 结构 。 直 属于 
表 空 间 的 区 对 应 的 XDES Entry 歧 构 可 以 分 成 FREE、FREE FRAG 和 FULL FRAG 这 3 个 链 
表 。 每 个 段 可 以 拥有 若干 个 区 ， 每 个 段 中 的 区 对 应 的 XDES Entry 结构 可 以 构成 FREE、 NOT 
FULL 和 FULL 这 3 个 链表 。 每 个 链表 都 对 应 一 个 List Base Node 结构 ， 这 个 结构 中 记录 了 链 


表 的 头 尾 节 点 的 位 置 以 及 该 链表 中 包含 的 节点 数 。 正 是 因为 这 些 链表 的 存在 ， 管理 这 些 区 才 变 
成 了 一 件 相当 容易 的 事情 。 


9.2.4” 段 的 结构 | 


我 们 前 面 说 过 ， 段 其 实 不 对 应 表 空间 中 某 一 个 连续 的 物理 区 域 而 是 一 个 逻辑 上 的 概念 ， 
由 右 干 个 零散 的 页 面 以 及 一 些 完整 的 区 组 成 。 像 每 个 区 都 有 对 应 的 XDES Entry 来 记录 这 个 区 


中 的 属性 一 样 ， 设 计 InnoDB 的 大 权 为 每 个 段 都 定义 了 一 个 INODE Entry 结构 〈 见 图 9-7) 来 
记录 这 个 段 中 的 属性 。 


INODE Entry 结构 中 各 个 部 分 此 含义 如 下 。 

e Segment ID : 这 个 INODE Entry 结构 对 应 的 段 的 编号 (ID)。 

9 NOT_FULL N_USED : 在 NOT_FULL 链表 中 已 经 使 用 了 多 少 个 页 面 。 

e 3 个 List Base Node : 分 别 为 段 的 FREE 链表 、 NOT_FULL 链表 、FULL 链表 定义 了 


List Base Node， 这 样 当 想 查找 某 个 段 的 某 个 链表 的 头 节点 和 尾 节点 时 ， 可 以 直接 到 这 
个 部 分 找到 对 应 链表 的 List Base Node。 
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e Magic Number : 用 来 标记 这 个 INODE Entry 是 否 已 经 被 初始 化 〈 即 把 各 个 字段 的 值 都 
填 进去 了 )。 如 果 这 个 数字 的 值 是 97,937,874， 表 明 该 INODE Entry 已 经 初始 化 ， 否 则 
没有 被 初始 化 (不 用 纠结 值 97,937,874 有 啥 特殊 含义 ， 这 是 人 家 规定 的 )。 

e@ Fragment Array Entry : 前 面 强调 过 无 数 次 ， 段 是 一 些 零 散 页 面 和 一 些 完整 的 区 的 集合 ， 
每 个 Fragment Array Entry 结构 都 对 应 着 一 个 零散 的 页 面 ， 这 个 结构 一 共 4 字 节 ， 表 示 
一 个 零散 页 面 的 页 号 。 


List ; Sa Fo b "ULLE 这 3 个 部 分 分 别 对 应 FREE、 
二 (16 字 节 | 中 | NOT_ FULL 和 FULL 链 表 的 基 节 点 


此 处 共有 32 个 
Fragment Array Entry 





图 9-7 INODE Entry 结构 示意 图 


结合 这 个 INODE Entry 结构 ， 大 家 可 能 会 对 “ 段 是 一 些 零 散 页 面 和 一 些 完整 的 区 的 集合 ” 
的 理解 更 深刻 一 些 。 


9.2.5 各 类 型 页 面 详细 情况 


现在 为 止 ， 我 们 已 经 大 致 清楚 了 表 空 间 、 段 、 区 、XDES Entry、INODE Entry、 各 种 以 
XDES Entry 为 节点 的 链表 的 基本 概念 。 可 是 总 有 一 种 不 踏实 的 感觉 。 每 个 区 对 应 的 XDES Entry 
结构 到 底 存 储 在 表 空 间 的 什么 地 方 ? 直属 于 表 空 间 的 FREE、FREE FRAG、FULL FRAG 链表 
的 基 节 点 到 底 存 储 在 表 空 间 的 什么 地 方 ? 每 个 段 对 应 的 INODE Entry 结构 到 底 存 在 表 空 间 的 什 
么 地 方 ? 我 们 在 前 文中 讲 到 ， 每 256 个 连续 的 区 算是 一 个 组 ， 想 解决 前 面 这 些 个 疑问 ， 还 得 从 
每 个 组 开头 的 一 些 类 型 相同 的 页 面 说 起 。 接 下 来 我 们 一 个 页 面 一 个 页 面 地 分 析 ， 真 相 马 上 就 要 
浮 出 水 面 了 。 

1. FSP_HDR 类 型 

首先 来 看 第 一 个 组 的 第 一 个 页 面 ， 它 当然 也 是 表 空 间 的 第 一 个 页 面 ， 页 号 为 0。 这 个 页 面 
的 类 型 是 FSP_HDR， 它 存储 了 表 空 间 的 一 些 整 体 属性 以 及 第 一 个 组 内 256 个 区 对 应 的 XDES 
Entry 结构 。 图 9-8 所 示 为 这 个 类 型 的 页 面 的 示意 图 。 

从 图 9-8 可 以 看 出 ， 一 个 完整 的 FSP_HDR 类 型 的 页 面 大 致 由 5 部 分 组 成 ， 各 个 部 分 的 具 
体 含义 如 表 9-4 所 示 。 
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FSP_HDR 类 型 的 页 结构 示意 图 













0 一 
38 字 节 $e File Header Ss 
一 一 一 一 一 
112 字 节 File Space Header 
a 
40 子 
190B 每 个 区 对 应 一 个 
40 字 节 XDES Entry， 每 
40 字 节 了 个 XDES Entry 占 
270B 用 40 字 节 。 共 有 
256 个 XDES Entry， 
所 以 XDES Entry 
10,350B 部 分 共 占 10,240 字 节 
40 字 节 
10,390B 
5,986 字 节 Empty Space 
”$16,376B 
8 字 节 


图 9-8 FSP HDR 类 型 的 页 结构 示意 图 


表 9-4 FSP_HDR 类 型 的 页 面 的 组 成 部 分 及 含义 


File Header 页 的 一 些 通用 信息 

File Space Header 表 空 间 的 一 些 整体 属性 信息 
XDES Entry 存储 本 组 256 个 区 对 应 的 属性 信息 
Empty Space 尚未 使 用 空间 用 于 页 结构 的 填充 ， 没 啥 实际 意义 


FleTrailer ”| 文人 部 | 8 | 校 验 页 是 否 完整 
File Header 和 File Trailer 就 不 再 强调 了 。 在 男 外 几 个 部 分 中 ，Empty Space 是 尚未 使 用 的 





空间 ， 我 们 不 用 管 它 。 重 点 来 看 看 File Space Header 和 XDES Entry 这 两 个 部 分 。 


(1) File Space Header 部 分 
顾名思义 ， 这 个 部 分 用 来 存储 表 空 间 的 一 些 整体 属性 。 废 话 少 说 ， 直 接 看 图 9-9。 


File Space Header 结 构 示 意图 





FSP_HDR 类 型 页 结构 示 族 图 


50B 


FRBEE Limit (4 字 节 》 
Spsoc Flag (4 a 站 
PRAG NN USED (477 
总 共 是 112 字 节 
Base Node Tor FREE Lst 
eR 
rh TRAG Last (41465 
i Segment 4D (8 字 节 


Iie sor SEG INODES FEUD 


Nodec torSEG INODES FREE (16 字 节 ) 





图 9.9 File Space Header 结构 示意 图 








一 
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哇 唔 ， 字 段 有 点 儿 多 ， 我 们 一 个 一 个 慢 慢 看 ， 不 用 着 急 。 表 9-5 所 示 为 各 个 属性 的 简单 描述 。 


表 9-5 File Space Header 结构 属性 及 简单 描述 


i Nt 
Not Used | 未 被 使 用 ， 可 以 忽略 
Size | 当前 表 空间 拥有 的 页 面 数 
尚未 被 初始 化 的 最 小 页 号 ， 大 于 或 等 于 
FREE Limit SE 这 个 页 号 的 区 对 应 的 XDES Entry 结构 ; 
; 都 没有 被 加 入 FREE 链表 
Space Flags ”4 | 表 空 间 的 一 些 占用 存储 空间 比较 小 的 属性 
FRAG_N_USED ”4 | FREE_ FRAG 链表 中 己 使 用 的 页 面 数 量 
List Base Node for FREE List | FREE 链表 的 基 节 点 
List Base Nodefor FREE FRAGList | 16 | FREE_FRAG 链表 的 基 节 点 
ListBase NodeforFULL FRAGList | 16 | FULL _FRAG 链表 的 基 节 点 
Next Unused Segment ID ”8 | 当前 表 空 间 中 下 一 个 未 使 用 的 SegmentID 
ListBaseNodeforSEG INODES FULLList | 16 | SEG INODES FULL 链表 的 基 节点 : 
ListBaseNodeforSEG INODES FREEList | 16 | SEG INODES FREE 链表 的 基 节 点 


表 9-5 中 的 Space ID 、Not Used、Size 这 3 个 字段 大 家 肯定 一 看 就 懂 ， 我 们 详细 本 了 酚 其 他 
字段 。 为 了 提升 阅读 体验 ， 这 里 就 不 严格 按照 实际 的 字段 顺序 来 解释 了 。 
© List Base Node for FREE List、 List Base Node for FREE FRAG List、List Base Node for 
FULL FRAG List : 这 3 个 字段 看 着 太 杀 切 了 ， 分 别 是 直属 于 表 空 间 的 FREE 链表 的 
基 节 点 、FREE FRAG 链表 的 基 节 点 、FULL FRAG 链表 的 基 节 点 。 这 3 个 链表 的 基 
节点 在 表 空 间 的 位 置 是 固定 的 ， 就 是 在 表 空间 的 第 一 个 页 面 ( 也 就 是 FSP_HDR 类 型 
的 页 面 ) 的 File Space Header 部 分 。 所 以 后 面 定 位 这 几 个 链表 时 就 相当 容易 啦 。 
e FRAG N USED : 表明 在 FREE FRAG 链表 中 已 经 使 用 的 页 面 数 量 。 
e FREE Limit : 我 们 知道 ， 表 空间 对 应 着 具体 的 磁盘 文件 。 表 空间 在 最 初创 建 时 会 有 一 
个 默认 的 大 小 。 而 且 磁 盘 文 件 一 般 都 是 自 增长 文件 ， 也 就 是 当 该 文件 不 够 用 时 ， 会 自 
动 增 大 文件 大 小 。 这 就 带 来 了 下 面 这 两 个 问题 。 
@ 最 初创 建 表 空 间 时 ， 可 以 指定 一 个 非常 大 的 磁盘 文件 ， 接 着 需要 对 表 空 间 完 成 一 
个 初始 化 操作 ， 包 括 为 表 空 间 中 的 区 建立 对 应 的 XDES Entry 结构 、 为 各 个 段 建立 
INODE Entry 结构 、 建 立 各 种 链表 等 在 内 的 各 种 操作 。 但 是 对 于 非常 大 的 磁盘 文 
件 来 说 ， 实 际 上 有 绝 大 部 分 的 空间 都 是 空闲 的 。 我 们 可 以 选择 把 所 有 的 空闲 区 对 
应 的 XDES Entry 结构 加 入 到 FREE 链表 ， 也 可 以 选择 只 把 一 部 分 空闲 区 加 入 到 
FREE 链表 ， 等 空闲 链表 中 的 XDES Entry 结构 对 应 的 区 不 够 使 的 时 候 ， 再 把 之 
前 没有 加 入 FREE 链表 的 空闲 区 对 应 的 XDES Entry 结构 加 入 到 FREE 链表 。 
@ 对 于 上 自 增 长 的 文件 来 说 ， 可 能 在 发 生 一 次 自 增长 时 分 配 的 磁盘 空间 非常 大 。 同 样 ， 
我 们 可 以 选择 把 新 分 配 的 这 些 磁 盘 空 间 代 表 的 空闲 区 对 应 的 XDES Entry 结构 加 入 








rr 
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到 FREE 链表 ; 也 可 以 选择 只 把 一 部 分 空闲 区 加 入 到 FREE 链表 ， 等 空闲 链表 中 的 
XDES Entry 结构 对 应 的 区 不 够 使 的 时 候 ， 再 把 之 前 没有 加 入 FREE 链表 的 空闲 区 
对 应 的 XDES Entry 结构 加 入 到 FREE 链表 。 

设计 InnoDB 的 大 叔 采 用 的 就 是 后 者 ， 中 心思 想 就 是 等 用 的 时 候 再 把 它们 加 入 到 
FREE 链表 。 他 们 为 表 空 间 定 义 了 FREE Limit 字段 ， 在 该 字段 表示 的 页 号 之 后 的 
区 都 未 被 使 用 ， 而 且 尚 未 被 加 入 到 FREE 链表 。 


e Next Unused Segment ID : 表 中 每 个 索引 都 对 应 两 个 段 ， 每 个 段 都 有 一 个 唯一 的 ID。 


当 我 们 为 某 个 表 新 创建 一 个 索引 的 时 候 ， 意 味 着 需要 创建 两 个 新 的 段 。 那 么 ， 怎 么 为 
这 个 新 创建 的 段 分 配 一 个 唯一 的 IJD 呢 ? 去 遍历 现在 表 空 间 中 所 有 的 段 么 ? 我 们 说 过 ， 
遍历 是 不 可 能 蜗 历 的 ， 这 奉子 都 不 可 能 遍历 的 。 所 以 设计 InnoDB 的 大 叔 提 出 了 这 个 
名 为 Next Unused Segment ID 的 字段 ， 该 字段 表明 当前 表 空 间 中 最 大 的 段 ID 的 下 一 个 
ID。 这 样 在 创建 新 段 时 为 其 赋予 一 个 唯一 的 ID 值 就 相当 容易 了 一 一 直接 使 用 这 个 字段 
的 值 ， 然 后 把 该 字段 的 值 递增 一 下 就 好 了 。 

Space Flags : 表 空 间 中 与 一 些 布尔 类 型 相关 的 属性 ， 或 者 只 需要 寥寥 几 个 比特 搞定 的 
属性 ， 都 存放 在 这 个 Space Flags 中 。 虽 然 这 个 字段 只 有 4 字 节 (32 比特 )， 却 储 了 表 
空间 的 好 多 属性 ， 如 表 9-6 所 示 。 





表 9-6 Space Flags 中 存储 的 属性 及 其 描述 


POST ANTELOPE | 1 | 表示 文件 格式 是 否 在 ANTELOPE 格式 之 后 

ZIP_SSIZE ”4 | 表示 压缩 页 面 的 大 小 

ATOMIC BLOBS | ”1 | 表示 是 否 自动 把 占用 存储 空间 非常 多 的 字段 放 到 滋 出 页 中 
PAGE_SSIZE 页 面 大 小 

DATA_DIR 1 | | 表示 表 空 间 是 否 是 从 数据 目录 中 获取 的 

SHARED ”1 | | 是 否 为 共享 表 空 间 

TEMPORARY | “1 | 是 否 为 临时 表 空间 

ENCRYPTION “| “1 | 表 空 间 是 否 加 密 

UNUSED ”18 ”| 没有 使 用 到 的 比特 


vi/ 
~ 一 
9: 


小 贴 二 看 ， 把 主要 的 表 空间 结构 了 解 完 ，SPACE_ FLAGS 中 这 些 属性 











在 不 同 的 MySQL 版 本 中 ,SPACE_FLAGS 1 or [ 些 差异 ， 这 里 列举 
是 MySQL 5.7.22 版 本 中 的 属性 . RN : : 


List Base Node for SEG INODES FULL List 和 List Base Node for SEG INODES FREE 

List : 每 个 段 对 应 的 INODE Entry 结构 会 集中 存放 到 一 个 类 型 为 INODE 的 页 中 。 如 果 

表 空 间 中 的 段 特别 多 ， 则 会 有 多 个 INODE Entry 结构 ， 此 时 可 能 一 个 页 放 不 下 ， 就 需 

要 多 个 INODE 类 型 的 页 面 。 这 些 INODE 类 型 的 页 会 构成 下 面 两 种 链表 。 

ma SEG INODES_ FULL 链表 : 在 该 链表 中 ，INODE 类 型 的 页 面 都 已 经 被 INODE 
Entry 结构 填充 满 ， 没 有 空闲 空间 存放 额外 的 INODE Entry。 
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sg SEG INODES FREE 链表 : 在 该 链表 中 ，INODE 类 型 的 页 面 仍 有 空闲 空间 来 存放 
INODE Entry 结构 。 

由 于 我 们 现在 还 没有 详细 啼 明 INODE 类 型 的 页 ， 所 以 在 说 过 INODE 类 型 的 页 之 后 再 回 
过 头 来 看 这 两 个 链表 。 

(2) XDES Entry 部 分 

紧 挨 着 File Space Header 部 分 的 就 是 XDES Entry 部 分 了 。 我 们 路 轨 过 无 数 次 但 却 一 直 未 
见 真 身 的 XDES Entry 就 存储 在 表 空 间 的 第 一 个 页 面 中 。 一 个 XDES Entry 结构 的 大 小 是 40 字 
节 ， 由 于 一 个 页 面 的 大 小 有 限 ， 只 能 存放 数量 有 限 的 XDES Entry 结构 ， 所 以 我 们 才 把 256 个 
区 划分 成 一 组 ， 在 每 组 的 第 一 个 页 面 中 存放 256 个 XDES Entry 结构 。 大 家 回 过 头 去 看 看 图 9-8 
所 示 的 示意 图 ， 其 中 XDES Entry 0 对 应 着 extent 0，XDES Entry 1 对 应 着 extent 1……XDES 
Entry255 对 应 着 extent 255。 

因为 每 个 区 对 应 的 XDES Entry 结构 的 地 址 是 固定 的 ， 因 此 我 们 可 以 很 轻松 地 访问 extent 
0 对 应 的 XDES Entry 结构 (页 面 偏 移 量 为 150 字 节 )、extent 1 对 应 的 XDES Entry 结构 (页 
面 偏 移 量 为 150 + 40 字 节 )、extent 2 对 应 的 XDES Entry 结构 (页 面 偏 移 量 为 150 + 80 字 节 ); 
等 等 等 等 。 至 于 该 结构 的 详细 使 用 情况 已 经 啼 归 得 够 明白 了 ， 这 里 就 不 装 述 了 。 


2. XDES 类 型 

前 文 说 过 ， 每 一 个 XDES Entry 结构 对 应 表 空 间 的 一 个 区 。 虽 然 一 个 XDES Entry 结构 只 占用 
40 字 节 ， 但 是 抵 不 住 表 空间 中 区 的 数量 不 断 增多 。 在 区 的 数量 非常 多 时 ， 一 个 单独 的 页 可 能 无 法 
存放 足够 多 的 XDES Entry 结构 。 所 以 我 们 把 表 空 间 的 区 分 为 若干 个 组 ， 每 组 开头 的 一 个 页 面 记 录 
着 本 组 内 所 有 的 区 对 应 的 XDES Entry 结构 。 由 于 第 一 个 组 的 第 一 个 页 面 有 些 特殊 〈 它 也 是 整个 表 
空间 的 第 一 个 页 面 )， 所 以 除了 记录 本 组 中 所 有 区 对 应 的 XDES Entry 结构 外 ， 还 记录 着 表 空间 的 
一 些 整 体 属 性 ， 这 个 页 面 的 类 型 就 是 FSP_HDR 类 型 ， 整 个 表 空 间 里 只 有 一 个 这 种 类 型 的 页 面 。 除 
第 一 个 分 组 以 外 ， 之 后 每 个 分 组 的 第 一 个 页 面 只 需要 记录 本 组 内 所 有 的 区 对 应 的 XDES Entry 结构 
即 可 ， 不 需要 再 记录 表 空 间 的 属性 。 为 了 与 FSP_ HDR 类 型 进行 区 别 ， 我 们 把 之 后 每 个 分 组 中 第 一 
个 页 面 的 类 型 定义 为 XDES， 它 的 结构 与 FSP_HDR 类 型 是 非常 相似 的 ， 如 图 9-10 所 示 。 
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每 个 区 对 应 一 个 


256 个 XDES Entry， 
所 以 XDES Entry 
部 分 共 占 10,240B 





图 9-10 XDES 类 型 的 页 结构 示意 图 
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与 FSP_HDR 类 型 的 页 面 对 比 ，XDES 类 型 的 页 面 除 了 没有 File Space Header 部 分 之 外 (也 
就 是 除了 没有 记录 表 空 间 整 体 属 性 的 部 分 之 外 )， 其 余 的 部 分 是 一 样 的 。 由 于 前 面 在 啼 妃 FSP 
HDR 类 型 的 页 面 时 已 经 够 仔细 了 ， 这 里 也 就 不 重复 讲解 XDES 类 型 的 页 面 了 。 


3. IBUF_BITMAP 类 型 

对 比 前 文 介绍 的 图 9-3， 每 个 分 组 中 第 二 个 页 面 的 类 型 都 是 IBUF_BITMAP。 这 种 类 型 的 
页 中 记录 了 一 些 有 关 Change Buffer 的 东西 。 

我 们 平时 说 向 表 中 插入 一 条 记录 ， 其 实 本 质 上 是 向 每 个 索引 对 应 的 B+ 树 中 插入 记录 。 该 
记录 目 先 插入 聚 簇 索 引 页 面 ， 然 后 再 插入 每 个 二 级 索引 页 面 。 这 些 页 面 在 表 空 间 中 随机 分 布 ， 
将 会 产生 大 量 的 随机 IJO， 严 重 影响 性 能 。 对 于 UPDATE 和 DELETE 操作 来 说 ， 也 会 带 来 许 
多 的 随机 WO。 所 以 设计 InnoDB 的 大 叔 引 入 了 一 种 称 为 Change Buffer 的 结构 (本 质 上 也 是 表 
空间 中 的 一 颗 B+ 树 ， 它 的 根 节 点 存储 在 系统 表 空间 中 ， 我 们 待 会 儿 细 说 )。 在 修改 非 唯一 二 
级 索引 页 面 时 (修改 唯一 二 级 索引 页 面 时 是 否 利用 Change Buffer 取决 于 很 多 情况 ， 我 们 这 里 
忠 不 展开 讨论 了 )， 如 果 该 页 面 尚未 被 加 载 到 内 存 中 ( 仍 在 磁盘 上)， 那么 该 修改 将 先 被 暂时 
缓存 到 Change Buffer 中 ， 之 后 服务 器 空闲 或 者 其 他 什么 原因 导致 对 应 的 页 面 从 磁盘 上 加 载 到 
内 存 中 时 ， 再 将 修改 合并 到 对 应 页 面 。 另 外 ， 在 很 久之 前 的 版 本 中 只 会 缓存 INSERT 操作 对 二 
级 索引 页 面 所 做 的 修改 ， 所 以 Change Buffer 以 前 被 称 作 Insert Buffer， 所 以 在 各 种 命名 上 延续 
了 之 前 的 叫 法 ， 比 方 说 IBUF 其 实 是 Insert Buffer 的 缩写 。 本 书 不 会 再 对 Change Buffer 的 运行 
过 程 做 更 多 详细 介绍 。 

4. INODE 类 型 


再 次 对 比 前 文 介绍 的 图 9-3， 第 一 个 分 组 中 第 三 个 页 面 的 类 型 是 INODE。 前 文 讲 过 ， 设计 
InnoDB 的 大 叔 为 每 个 索引 定义 了 两 个 段 ， 而 且 为 某 些 特 殊 功 能 定义 了 特殊 的 段 。 为 了 方便 管 
理 ， 他 们 又 为 每 个 段 设 计 了 一 个 INODE Entry 结构 ， 这 个 结构 记录 了 这 个 段 的 相关 属性 。 我 


们 即将 介绍 的 这 个 INODE 类 型 的 页 就 是 为 了 存储 INODE Entry 结构 而 存在 的 。 话 不 多 说 ， 直 
接 看 图 9-11。 








INODE 类 型 的 页 结构 示意 图 
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85 个 INODE Entry， 
所 以 INODE Entry 
部 分 共 占 16,320B 
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图 9-11 INODE 类 型 的 页 结构 示意 图 
从 图 9-11 可 以 看 出 ， 一 个 INODE 类 型 的 页 面 是 由 表 9-7 中 的 这 几 部 分 构成 的 。 
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表 9-7 INODE 类 型 的 页 面 的 构成 部 分 及 其 描述 


名 称 占用 空间 大 小 〈 字 节 ) 简单 描述 
File Header 文件 头 部 i | 页 的 一 些 通用 信息 | 


List Node for INODE | 、 存储 上 一 个 INODE 页 面 和 下 一 个 INODE 


INODE Entry 段 描述 信息 再 具体 的 INODE Entry 结构 
RS 尚未 使 用 空间 i 用 于 页 结构 的 填充 ， 没 哈 实 际 意 义 
File Trailer 文件 尾部 | 校 验 页 是 否 完整 


除了 File Header、Empty Space、File Trailer 这 几 个 “ 老 朋 友 ” 外 ， 我 们 重点 关注 List Node 
for INODE Page List 和 INODE Entry 这 两 个 部 分 。 
首先 来 看 INODE Entry 部 分 。 前 文 已 经 详细 介绍 过 这 个 结构 的 组 成 一 一 主要 包括 对 应 的 
段 内 零散 页 面 的 地 址 以 及 附属 于 该 段 的 FREE、NOT FULL 和 FULL 链表 的 基 节 点 。 每 个 
INODE Entry 结构 占用 192 字 节 ， 一 个 页 面 中 可 以 存储 85 个 这 样 的 结构 。 
现在 重点 看 一 下 List Node for INODE Page List。 如 果 一 个 表 空 间 中 存在 的 段 超过 85 个 ， 
那么 一 个 INODE 类 型 的 页 面 不 足以 存储 所 有 的 段 对 应 的 INODE Entry 结构 ， 所 以 就 需要 额外 
的 INODE 类 型 的 页 面 来 存储 这 些 结构 。 为 了 方便 管理 这 些 INODE 类 型 的 页 面 ， 设 计 InnoDB 
的 大 叔 将 这 些 INODE 类 型 的 页 面 串 连 成 两 个 不 同 的 链表 。 
e SEG INODES_FULL 链表 : 在 该 链表 中 ，INODE 类 型 的 页 面 中 已 经 没有 空闲 空间 来 
存储 额外 的 INODE Entry 结构 。 
@ SEG INODES FREE 链表 : 在 该 链表 中 ，INODE 类 型 的 页 面 中 还 有 空闲 空间 来 存储 额 
外 的 INODE Entry 结构 。 
想必 大 家 已 经 认 出 这 两 个 链表 了 。 我 们 前 面 提 到 过 ， 这 两 个 链表 的 基 节 点 就 存储 在 FSP 
HDR 类 型 页 面 的 File Space Header 中 。 也 就 是 说 这 两 个 链表 的 基 节 点 的 位 置 是 固定 的 ， 从 而 
可 以 轻松 访问 这 两 个 链表 。 以 后 每 当 新 创建 一 个 段 〈 创 建 索 引 时 就 会 创建 段 ) 时 ， 都 会 创建 一 
个 与 之 对 应 的 INODE Entry 结构 。 存 储 INODE Entry 的 过 程 大 致 如 下 所 示 。 
1. 先 看 看 SEG_ INODES FREE 链表 是 否 为 空 。 如 果 不 为 空 ， 直 接 从 该 链表 中 获取 一 个 节点 ， 
也 就 相当 于 获取 到 一 个 仍 有 空闲 空间 的 INODE 类 型 的 页 面 ， 然 后 把 该 INODE Entry 结构 
放 到 该 页 面 中 。 当 该 页 面 中 无 剩余 空间 时 ， 就 把 该 页 放 到 SEG INODES FULL 链表 中 。 
2. 如 果 SEG_INODES_FREE 链表 为 空 ， 则 需要 从 表 空 间 的 FREE FRAG 链表 中 申请 一 
个 页 面 ， 并 将 该 页 面 的 类 型 修改 为 INODE， 把 该 页 面 放 到 SEG INODES FREE 链表 
中 ; 与 此 同时 把 该 INODE Entry 结构 放 入 该 页 面 。 


9.2.6 Segment Header 结构 的 运用 


我 们 知道 ， 一 个 索引 会 产生 两 个 段 ， 分 别 是 叶子 节点 段 和 非 叶 子 节点 段 ， 而 每 个 段 都 会 对 
应 一 个 INODE Entry 结构 。 我 们 怎么 知道 某 个 段 对 应 哪个 INODE Entry 结构 呢 ? 所 以 得 将 这 
个 对 应 关系 记 在 某 个 地 方 。 大 家 应 该 还 记得 ， 在 啼 奶 数据 页 (也 就 是 INDEX 类 型 的 页 ) 时 有 
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一 个 Page Header 部 分 。 大 家 如 果 不 记得 了 ， 请 看 表 9-8 (需要 注意 的 是 ， 为 了 突出 重点 ， 表 9-8 
省 略 了 好 多 属性 )。 


表 9-8 Page Header 部 分 的 结构 及 其 描述 
名 称 占用 空间 大 小 ( 字 节 ) 描述 


PAGE BTR SEG LEAF 0 B+ 树叶 子 节点 段 的 头 部 信息 ， 仅 在 B+ 树 的 根 页 中 定义 


PAGE BTR SEG TOP B+ 树 非 叶子 节点 段 的 头 部 信息 ， 仅 在 B+ 树 的 根 页 中 定义 


其 中 的 PAGE BTR_SEG LEAF 和 PAGE BTR SEG TOP 都 占用 10 字 节 ， 它 们 其 实 对 应 
一 个 名 为 Segment Header 的 结构 ， 如 图 9-12 所 示 。 





图 9-12 Segment Header 结构 


Segment Header 结构 中 ， 各 个 部 分 的 具体 含义 如 表 9-9 所 示 。 


表 9-9 Segment Header 结构 及 其 描述 


名 称 占用 空间 大 小 〈 字 节 ) 描述 


Space ID of the INODE Entry i | INODE Entry 结构 所 在 的 表 空 间 ID 
Page Number of the INODE Entry i | INODE Entry 结构 所 在 的 页 面 页 号 
Byte Offset of the INODE Entry INODE Entry 结构 在 该 页 面 中 的 偏 移 量 


这 样 就 很 清晰 了 : PAGE_BTR_SEG LEAF 记录 着 叶子 节点 段 对 应 的 INODE Entry 结构 的 
地 址 是 哪个 表 空 间 中 哪个 页 面 的 哪个 偏 移 量 ; PAGE BTR _SEG_TOP 记录 着 非 叶 子 节点 段 对 应 
的 INODE Entry 结构 的 地 址 是 哪个 表 空 间 中 哪个 页 面 的 哪个 偏 移 量 。 这 样 ， 索 引 和 对 应 的 段 
的 关系 就 建立 起 来 了 。 不 过 需要 注意 的 一 点 是 ， 因 为 一 个 索引 只 对 应 两 个 段 ， 所 以 只 需要 在 索 
引 的 根 页 面 中 记录 这 两 个 结构 即 可 。 


9.2.7 ”真实 表 空间 对 应 的 文件 大 小 


等 会 儿 等 会 儿 ， 上 面 这 些 概念 已 经 压 得 快 喘 不 过 气 来 了 。 先 提 一 个 问题 啊 ， 独 立 表 空间 有 
那么 大 么 ? 我 到 数据 目录 中 看 了 一 下 ， 一 个 新 建 的 表 对 应 的 .ibd 文件 只 占用 了 96KB， 才 6 个 
页 面 大 小 ， 上 面 的 内 容 该 不 是 在 “ 扯 犊 子 ” 吧 ? 

刚 开 始 时 ， 表 空间 占用 的 空间 自然 是 很 小 ， 因 为 表 里 面 没有 数据 嘛 ! 不 过 ， 请 别 筷 了 这 
些 .ibd 文件 是 目 扩展 的 ， 随 着 表 中 数据 的 增多 ， 表 空间 对 应 的 文件 也 逐渐 增 大 。 
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9.3 ”系统 表 空 间 


在 了 解 了 独立 表 空间 的 基本 结构 后 ， 再 来 看 系统 表 空 间 的 结构 也 就 好 理解 多 了 。 系 统 表 空 
间 的 结构 与 独立 表 空 间 基 本 类 似 ， 只 不 过 由 于 整个 MySQL 进程 只 有 一 个 系统 表 空 间 ， 系 统 表 
空间 中 需要 记录 一 些 与 整个 系统 相关 的 信息 ， 所 以 会 比 独立 表 空 间 多 出 一 些 用 来 记录 这 些 信息 
的 页 面 。 因 为 这 个 系统 表 空 间 最 重要 ， 相 当 于 所 有 表 空 间 的 “带头 大 哥 ”， 所 以 它 的 表 空 间 ID 
(Space ID) 是 0。 


9.3.1 系统 表 空间 的 整体 结构 


与 独立 表 空 间 相 比 ， 系 统 表 空 间 有 一 个 非常 明显 的 不 同 之 处 ， 就 是 在 表 空 间 开 头 有 许多 记 
录 整 个 系统 属性 的 页 面 ， 如 图 9-13 所 示 。 


extent 0 的 各 个 页 








空间 结 


| > a . 


512MB+32KB 


$13MB 
图 9-13 系统 表 空 间 结 构 


可 以 看 到 ， 系 统 表 空间 和 独立 表 空 间 的 前 3 个 页 面 〈 页 号 分 别 为 0、1、2， 类 型 分 别 是 
FSP_HDR、IBUF_BITMAP、INODE) 的 类 型 是 一 致 的 ， 但 是 页 号 为 3 一 7 的 页 面 是 系统 表 空 
间 特 有 的 。 我 们 来 看 一 下 这 些 多 出 来 的 页 面 都 是 干 啥 使 的 〈 见 表 9-10)。 
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表 9-10 ”系统 表 空间 特有 的 页 面 


页 号 页 面 类 型 英文 描述 描述 
ET TT 


3 
4 存储 Change Buffer 的 根 页 面 
ee 


除了 这 几 个 记录 系统 属性 的 页 面 之 外 ， 系 统 表 空 间 的 extent 1 和 extent 2 这 两 个 区 ， 也 就 
是 页 号 从 64~191 的 这 128 个 页 面 称 为 Doublewrite Buffer( 双 写 缓冲 区 )。 上 述 大 部 分 知识 都 


涉及 事务 和 多 版 本 控制 的 问题 ， 我 们 在 后 面 的 章节 遇 到 时 再 说 ， 现 在 只 啼 嫂 一 下 有 关 InnoDB 
数据 字典 的 知识 。 | 


InnoDB 数据 字典 


我 们 平时 使 用 INSERT 语句 向 表 中 插入 的 那些 记录 称 为 用 户 数据 。MySQL 只 是 作为 一 个 
软件 来 为 我 们 来 保管 这 些 数 据 ， 提 供 方便 的 增删 改 查 接口 而 已 。 但 是 每 当 问 一 个 表 中 捅 入 一 条 
记录 时 ，MySQL 先 要 校 验 插入 语句 所 对 应 的 表 是 否 存在 ， 以 及 插入 的 列 和 表 中 的 列 是 否 符合 。 
如 果 语 法 没有 问题 ， 还 需要 知道 该 表 的 聚 簇 索引 和 所 有 二 级 索引 对 应 的 根 页 面 是 哪个 表 空 间 的 
哪个 页 面 ， 然 后 把 记录 插入 对 应 索引 的 B+ 树 中 。 所 以 ，MySQL 除了 保存 着 我 们 插入 的 用 户 
数据 之 外 ， 还 需要 保存 许多 额外 的 信息 ， 比 如 : 

e 某 个 表 属 于 哪个 表 空间 ， 表 里 面 有 多 少 列 ; 

e 表 对 应 的 每 一 个 列 的 类 型 是 什么 ; 

@ 该 表 有 多 少 个 索引 ， 每 个 条 引 对 应 哪 几 个 字段 ， 该 索引 对 应 的 根 页 面 在 哪个 表 空间 的 

哪个 页 面 ; 

e 该 表 有 哪些 外 键 ， 外 键 对 应 哪个 表 的 哪些 列 ; 

e 某 个 表 空 间 对 应 的 文件 系统 上 的 文件 路 径 是 什么 。 

上 述 信息 并 不 是 使 用 INSERT 语句 插入 的 用 户 数 据 ， 实 际 上 是 为 了 更 好 地 管理 用 户 数据 而 
不 得 已 引入 的 一 些 额 外 数据 ， 这 些 数 据 也 称 为 元 数据 。InnoDB 存储 引擎 特意 定义 了 一 系列 的 
内 部 系统 表 (internal system table) | 来 记录 这 些 元 数据 〈 见 表 9-11)。 


表 9-11 ”记录 元 数据 的 内 部 系统 表 及 其 描述 


表 名 描述 
SYS _ TABLES 整个 InnoDB 存储 引擎 中 所 有 表 的 信息 
SYS_COLUMNS 整个 InnoDB 存储 引擎 中 所 有 列 的 信息 
SYS INDEXES 整个 InnoDB 存储 引擎 中 所 有 索引 的 信息 
SYS FIELDS 整个 InnoDB 存储 引擎 中 所 有 索引 对 应 的 列 的 信息 


SYS FOREIGN 整个 InnoDB 存储 引擎 中 所 有 外 键 的 信息 


ep 
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续 表 
表 名 描述 
SYS FOREIGN COLS 整个 InnoDB 存储 引擎 中 所 有 外 键 对 应 的 列 的 信息 
SYS TABLESPACES 整个 InnoDB 存储 引擎 中 所 有 的 表 空 间 信息 
SYS_DATAFILES 整个 InnoDB 存储 引擎 中 所 有 表 空 间 对 应 的 文件 系统 的 文件 路 径 信 息 
SYS VIRTUAL 整个 InnoDB 存储 引擎 中 所 有 虚拟 生成 的 列 的 信息 


这 些 系统 表 也 被 为 数据 字典 ， 它 们 都 是 以 B+ 树 的 形式 保存 在 系统 表 空 间 的 某 些 页 面 中 。 
其 中 SYS TABLES、SYS_ COLUMNS、SYS_INDEXES、SYS_FIELDS 这 4 个 表 尤 其 重要 ， 称 
为 基本 系统 表 (basic system table)。 我 们 先 看 看 这 4 个 表 的 结构 。 

(1) SYS TABLES 表 


表 9-12 所 示 为 SYS _ TABLES 表 的 列 。 


表 9-12 SYS_TABLES 表 的 列 


列 名 描述 
NAME 表 的 名 称 
ID 在 InnoDB 存储 引擎 中 ， 每 个 表 都 有 的 一 个 唯一 的 ID 
N COLS 该 表 拥 有 列 的 个 数 
TYPE 表 的 类 型 ， 记 录 了 一 些 文件 格式 、 行 格式 、 压 缩 等 信息 
MIX_ID 已 过 时 ， 和 忽略 
MIX LEN 表 的 一 些 额 外 属性 
CLUSTER_ID 未 使 用 ， 忽 略 
SPACE 该 表 所 属 表 空间 的 ID 


SYS_TABLES 表 有 两 个 索引 : 

e 以 NAME 列 为 主键 的 聚 簇 索引 ; 

e 以 ID 列 建立 的 二 级 索引 。 

(2) SYS_COLUMNS 表 

表 9-13 所 示 为 SYS COLUMNS 表 的 列 。 


表 9-13 SYS_COLUMNS 表 的 列 


列 名 描述 
TABLE ID 该 列 所 属 表 对 应 的 ID 
POS 该 列 在 表 中 是 第 几 列 
NAME 该 列 的 名 称 


主 数据 类 型 (main data type) ， 就 是 那 堆 INT、CHAR、VARCHAR、FLOAT、 
DOUBLE 之 类 的 东西 


MTYPE 





yy" 


. 天 天 


| 
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续 表 
列 名 : 描述 
pRTYPE 精确 数据 类 型 (precise type)， 就 是 修饰 主 数 据 类 型 的 那 堆 东 西 ， 比 如 是 否 允 
许 NULL 值 ， 是 否 允许 负数 
LEN 该 列 最 多 占用 存储 空间 的 字 节 数 
PREC 该 列 的 精度 不 过 这 列 摇 似 都 没有 使 用 )， 默 认 值 都 是 0 


SYS_COLUMNS 表 只 有 一 个 聚 艇 索引 ， 即 以 (TABLE ID，POS) 列 为 主键 的 聚 艇 索引。 
(3) SYS_ INDEXES 表 


表 9-14 所 示 为 SYS INDEXES 表 的 列 。 





表 9-14 SYS_INDEXES 表 的 列 





列 名 | 描述 
TABLE ID 该 索引 所 属 表 对 应 的 ID 
ID 在 InnoDB 存储 引擎 中 ， 每 个 索引 都 有 的 一 个 唯一 的 ID 
NAME 该 索引 的 名 称 
N FIELDS 该 索引 包含 的 列 的 个 数 
og 该 索引 的 类 型 ， 比 如 聚 能 索引 、 唯 一 二 级 索引 、 更 改 缓冲 区 的 索引 、 全 文 索 
引 、 普 通 的 二 级 索引 
SPACE 该 索引 根 页 面 所 在 的 表 空 间 ID 
PAGE NO 该 索引 根 页 面 所 在 的 页 面 号 
ee -Fr 
PE pa ech i 就 尝试 把 该 页 面 和 相 邻 页 面 合 并 ; 这 


SYS_INDEXES 表 只 有 一 个 聚 艇 索引 ， 即 以 (TABLE ID，ID) 列 为 主键 的 聚 簇 索 引 。 
(4) SYS_ FIELDS 表 


表 9-15 所 示 为 SYS_ FIELDS 表 的 列 。 


表 9-15 SYS_FIELDS 表 的 列 





列 名 | 描述 
INDEX ID 该 列 所 属 索 列 的 ID 
POS 该 列 在 索引 列 中 是 第 几 列 
COL NAME 该 列 的 名 称 


SYS FIELDS 表 只 有 一 个 聚 簇 索引 ， 即 以 (INDEX ID，POS) 列 为 主键 的 聚 簇 索引 。 
(5) Data Dictionary Header 页 面 
只 要 有 了 上 述 4 个 基本 系统 表 ， 也 就 意味 着 可 以 获取 其 他 系统 表 以 及 用 户 定义 的 表 的 所 有 


元 数据 。 比 如 ， 我 们 想 看 一 下 SYS_TABLESPACES 系统 表 中 存储 了 哪些 表 空 间 以 及 表 空 间 对 
应 的 属性 ， 就 可 以 执行 下 述 操作 。 





re 
一 一 
ee 
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e 根据 表 名 到 SYS TABLES 表 中 定位 到 具体 的 记录 ， 从 而 获取 到 SYS_TABLESPACES 表 的 
TABLE ID。 
使 用 获取 的 TABLE ID 到 SYS COLUMNS 表 中 就 可 以 获取 到 属于 该 表 的 所 有 列 的 信息 。 
使 用 获取 的 TABLE ID 还 可 以 到 SYS _ INDEXES 表 中 获取 所 有 的 索引 的 信息 。 索 引 的 信息 
中 包括 对 应 的 INDEX ID， 还 记录 着 该 索引 对 应 的 B+ 树 根 页 面 是 哪个 表 空间 的 哪个 页 面 。 
e 使 用 获取 的 INDEX ID 就 可 以 到 SYS_FIELDS 表 中 获取 所 有 索引 列 的 信息 。 
也 就 是 说 这 4 个 表 是 表 中 之 表 。 那 么 ， 这 4 个 表 的 元 数据 去 哪里 获取 呢 ? 没 法 摘 了 ， 只 
能 把 这 4 个 表 的 元 数据 〈 也 就 是 它们 有 哪些 列 、 哪 些 索 引 等 信息 ) 硬 编码 到 代码 中 。 然 后 议 
计 InnoDB 的 大 叔 又 拿 出 一 个 固定 的 页 面 来 记录 这 4 个 表 的 聚 艇 索引 和 二 级 索引 对 应 的 B+ 树 
位 置 。 这 个 页 面 就 是 页 号 为 7 的 页 面 ， 类 型 为 SYS， 记录 了 Data Dictionary Header (数据 字典 
的 头 部 信息 )。 除 了 这 4 个 表 的 5 个 索引 的 根 页 面 信息 外 ， 这 个 页 号 为 7 的 页 面 还 记录 了 整个 
InnoDB 存储 引擎 的 一 些 全 局 属性 。“ 一 图 胜 千 言 >， 咱 们 直接 看 这 个 页 面 的 示意 图 ( 见 图 9-14)。 


Data Dictionary Header 结 


Max Row ID ($F 节 ) 


i eae 
Max Jable ID (83) 


Max 43ndex 1D (8 字 节 ) 








38 字 节 Max Space JD (4 字 节 ) 
NixID Low(0Unused) (4 字 节 ) 
-pp Atr ~ ” a 
52 字 节 Data Dictionary Header eC) 
, Rootof SYS TABLES IDS'sec index (4 学 节 ) 
4 字 节 
RootofSYS COLUMNS clust index (4 字 节 } 
10 字 他 Segment Header Root of SYS INDEXES clustindex (4 字 节 ) 
Root of SYS FIELDS clust index (4 字 节 ) 
总 共 是 16KB 
Segment Header 结 构 
16,272 字 节 
94B 
Space ID ofrhe TINODE Entry (4 节 ) 
98B 
Papgo Numberofihe INODE Bnwry (#7) 
102B 
Byie Ortserof theINODE Enry .42 字 节 ) 





图 9-14 页 号 为 7 的 页 的 结构 示意 图 
可 以 看 到 ， 这 个 页 面 由 表 9-16 中 的 几 个 部 分 组 成 。 
表 9-16 页 号 为 7 的 页 的 组 成 部 分 及 其 描述 
名 称 占用 空间 大 小 〈 字 节 ) 简单 描述 


File Header (文件 头 部 ) 页 的 一 些 通用 信息 


| 记录 一 些 基本 系统 表 的 根 页 面 位 置 以 
人 ~ 癌 S7 
Data Dictionary Header (数据 字典 头 部 ) 加 中 及 InnoDB 存储 引擎 的 一 些 全 局 信息 


Da 有 


记录 本 页 面 所 在 段 对 应 的 INODE 
Segment Header ( 段 头 部 ) Entry 位 置信 息 


Empty Space〈 尚 未 使 用 的 空间 ) 用 于 页 结构 的 填充 ， 没 喻 实际 意义 


File Trailer (文件 尾部 ) | 8 | 校 验 页 是 否 完整 





i 有 
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这 个 页 面 中 竟然 有 Segment Header 部 分 ， 这 意味 着 设计 InnoDB 的 大 叔 把 这 些 有 关 数 据 字 
典 的 信息 当成 一 个 段 来 分 配 存 储 空间 ， 我 们 就 姑且 称 之 为 数据 字典 段 。 由 于 目前 需要 记录 的 数 


据 字 典 信息 非常 少 (可 以 看 到 Data Dictionary Header 部 分 仅 占 用 了 52 字 节 )， 所 以 该 段 只 有 
一 个 碎片 页 ， 也 就 是 页 号 为 7 的 这 个 页 。 


接 下 来 需要 详细 介绍 Data Dictionary Header 部 分 的 各 个 字段 。 

9 Max Row ID : 我 们 说 过 ， 如 果 不 显 式 地 为 表 定义 主键 ， 向 且 表 中 也 没有 不 允许 存储 NULL 
值 的 UNIQUE 键 ， 那 么 InnoDB 存储 引擎 会 默认 生成 一 个 名 为 row_id 的 列 作为 主键 。 
因为 它 是 主键 ， 所 以 每 条 记录 的 row id 列 的 值 不 能 重复 。 原则 上 只 要 一 个 表 中 的 row_ 
id 列 不 重复 就 可 以 了 ， 也 就 是 说 表 a 和 表 b 拥有 一 样 的 row_id 列 也 没 啥 关系 。 不 过 设 
计 InnoDB 的 大 叔 只 提供 了 这 个 Max Row ID 字段 ， 无 论 哪 个 拥有 row id 列 的 表 插 入 
一 条 记录 ， 该 记录 的 row id 列 的 值 就 是 Max Row ID 对 应 的 值 ， 然 后 再 把 Max Row ID 
对 应 的 值 加 1。 也 就 是 说 这 个 Max Row ID 是 全 局 共享 的 。 





清 : 当然 并 不 是 每 分 配 一 个 row id 值 都 会 将 Max Row ID 列 刷新 到 磁盘 一 次 ， 这 样 就 太 - 


小 由 十 准 修 了 ， 具体 的 策略 请 见 第 19 章 . 2 


9 Max Table ID : 在 InnoDB 存储 引擎 中 ， 所 有 的 表 都 对 应 一 个 唯一 的 ID， 每 次 新 建 一 
个 表 时 ， 就 会 把 该 字段 的 值 加 1， 然后 将 其 作为 该 表 的 ID。 

e Max Index ID : 在 InnoDB 存储 引擎 中 ， 所 有 的 索引 都 对 应 一 个 唯一 的 ID， 每 次 新 建 
一 个 索引 时 ， 就 会 把 该 字段 的 值 的 值 加 1， 然后 将 其 作为 该 索引 的 ID。 

9 Max Space ID : 在 InnoDB 存储 引擎 中 ， 所 有 的 表 空 间 都 对 应 一 个 唯一 的 ID， 每 次 新 
建 一 个 表 空 间 时 ， 就 会 把 本 字段 的 值 的 值 加 ]， 然后 将 其 作为 该 表 空 间 的 ID。 

® Mix ID Low(Unused) : 这 个 字段 没 喻 用， 直接 跳 过 。 

® Root of SYS_TABLES clust index : 表示 SYS_TABLES 表 聚 簇 索引 的 根 页 面 的 页 号 。 

® Root of SYS_TABLE IDS sec index : 表示 SYS_TABLES 表 为 ID 列 建立 的 二 级 索引 的 
根 页 面 的 页 号 。 


Root of SYS_COLUMNS clust index : 表示 SYS_COLUMNS 表 聚 簇 索引 的 根 页 面 的 
页 号 。 

e Root of SYS_INDEXES clust index : 表示 SYS_INDEXES 表 聚 簇 索 引 的 根 页 面 的 页 号 。 

® Root of SYS_FIELDS clust index : 表示 SYS_FIELDS 表 聚 簇 索 引 的 根 页 面 的 页 号 。 

以 上 就 是 页 号 为 7 的 页 面 的 全 部 内 容 ， 大 家 在 初次 查看 时 可 能 会 发 懂 (因为 有 点 儿 线 )， 
可 以 多 看 几 次 。 

(6) information_schema 系统 数据 库 

需要 注意 的 一 点 是 ， 用 户 不 能 直接 访问 InnoDB 的 这 些 内 部 系统 表 ， 除 非 直接 去 解析 系统 
表 空 间 对 应 的 文件 系统 上 的 文件 。 不 过 设计 InnoDB 的 大 叔 考虑 到 ， 查 看 这 些 表 的 内 容 可 能 有 


助 于 大 家 分 析 问 题 ， 所 以 在 系统 数据 库 Iinformation_schema 中 提供 了 一 些 以 INNODB SYS 开 
头 的 表 : 
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OS SW 


mysql> USE information_schema; 
Database changed 


mysql> SHOW TABLES LIKE 'INNODB_SYS$%"; 


一 一 一 一 一 一 一 一 ee aaa ee we op Ar Ts 


INNODB_SYS_DATAFILES | 
INNODB_SYS_VIRTUAL | 
INNODB_SYS_INDEXES | 
INNODB_SYS_TABLES | 
INNODB_SYS_FIELDS | 
| 
| 
| 
| 
| 


,i 
ho | 
5 | 

1 
| 1! 
® | 
Wm | 
| | 
ke 1 

E 

| 
| 
bh 1 
-Ml 
| 
| 
| 
FP 
I | 
© | 
号 | 
| | 
Wm | 
C3: 
一 
I 
| 
| 
| 
~ | 
3 | 
| 
wm 
te | 
Wm | 
op | 
S| 
中 一 十 


INNODB_SYS_TABLESPACES 
INNODB_SYS_FOREIGN_COLS 
INNODB_SYS_COLUMNS 
INNODB_SYS_FOREIGN 
INNODB_SYS_TABLESTATS 


10 rows in set (0.00 sec) 


在 information schema 数据 库 中 ， 这 些 以 INNODB_SYS 开头 的 表 并 不 是 真正 的 内 部 系统 : 

表 (内 部 系统 表 就 是 前 文 啼 归 的 以 SYS 开头 的 那些 表 )， 而 是 在 存储 引擎 启动 时 读 取 这 些 以 

SYS 开头 的 系统 表 ， 然 后 填充 到 这 些 以 INNODB SYS 开头 的 表 中 。 以 INNODB_SYS 开头 的 

表 和 以 SYS 开头 的 表 中 的 字段 并 不 完全 一 样 ， 但 供 大 家 参考 已 经 足 鳞 。 这 些 表 太 多 了 ， 这 里 
就 不 逻 明 了 ， 大 家 自 个 儿 动 手 试 着 查 一 查 这 些 表 中 的 数据 吧 。 


9.4 总 结 





设计 InnoDB 的 大 叔 出 于 不 同 的 目的 而 设计 了 不 同类 型 的 页 面 。 这 些 不 同类 型 的 页 面 基本 
都 有 File Header 和 File Trailer 的 通用 结构 。 
表 空间 被 划分 为 许多 连续 的 区 ， 对 于 大 小 为 16KB 的 页 面 来 说 ， 每 个 区 默认 由 64 个 页 (也 
就 是 1MB) 组 成 ， 每 256 个 区 (也 就 是 256MB) 划分 为 一 组 ， 每 个 组 最 开始 的 几 个 页 面 的 类 
型 是 固定 的 。 
段 是 一 个 逻辑 上 的 概念 ， 是 某 些 零 散 的 页 面 以 及 一 些 完整 的 区 的 集合 。 
每 个 区 都 对 应 一 个 XDES Entry 结构 ， 这 个 结构 中 存储 了 一 些 与 这 个 区 有 关 的 属性 。 这 些 
区 可 以 被 分 为 下 面 几 种 类 型 。 
e 空闲 的 区 : 这 些 区 会 被 加 入 到 FREE 链表 。 
有 剩余 空闲 页 面 的 碎片 区 : 这 些 区 会 被 加 入 到 FREE FRAG 链表 。 
没有 剩余 空闲 页 面 的 碎片 区 : 这 些 区 会 被 加 入 到 FULL FRAG 链表 。 
附属 于 某 个 段 的 区 : 每 个 段 所 属 的 区 又 会 被 组 织 成 下 面 几 种 链表 。 | 
@ FREE 链表 : 在 同一 个 段 中 ， 所 有 页 面 都 是 空间 页 面 的 区 对 应 的 XDES Entry 结构 
会 被 加 入 到 这 个 链表 。 | 
NOT FULL 链表 : 在 同一 个 段 中 ， 仍 有 空闲 页 面 的 区 对 应 的 XDES Entry 结构 会 被 
加 入 到 这 个 链表 。 
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FULL 链表 : 在 同一 个 段 中 ， 已 经 没有 空闲 页 面 的 区 对 应 的 XDES Entry 结构 会 被 
加 入 到 这 个 链表 。 
每 个 段 都 会 对 应 一 个 INODE Entry 结构 ， 该 结构 中 存储 了 一 些 与 这 个 段 有 关 的 属性 。 
表 空间 中 第 一 个 页 面 的 类 型 为 FSP_HDR， 它 存储 了 表 空 间 的 一 些 整 体 属性 以 及 第 一 个 组 
内 256 个 区 对 应 的 XDES Entry 结构 。 
除了 表 空 间 的 第 一 个 组 以 外 ， 其 余 组 的 第 一 个 页 面 的 类 型 为 XDES， 这 种 页 面 的 结构 和 
FSP_HDR 类 型 的 页 面 对 比 ， 除 了 少 了 File Space Header 部 分 之 外 (也 就 是 除了 少 了 记录 表 空 
间 整 体 属 性 的 部 分 之 外 ) ， 其 余部 分 是 一 样 的 。 
每 个 组 的 第 二 个 页 面 的 类 型 为 IBUF_BITMAP， 存储 了 一 些 关 于 Change Buffer 的 信息 。 
表 空间 中 第 一 个 分 组 的 第 三 个 页 面 的 类 型 是 INODE， 它 是 为 了 存储 INODE Entry 结构 而 
设计 的 ， 这 种 类 型 的 页 面 会 组 织 成 下 面 两 个 链表 。 
e SEG INODES FULL 链表 : 在 该 链表 中 ，INODE 类 型 的 页 面 中 已 经 没有 空闲 空间 来 
存储 额外 的 INODE Entry 结构 。 


e SEG INODES FREE 链表 :| 在 该 链表 中 ，INODE 类 型 的 页 面 中 还 有 空闲 空间 来 存储 额 
外 的 INODE Entry 结构 。 

Segment Header 结构 占用 10 字 节 ， 是 为 了 定位 到 具体 的 INODE Entry 结构 而 设计 的 。 

与 独立 表 空 间 相 比 ， 系 统 表 空间 有 一 个 非常 明显 的 不 同 之 处 ， 就 是 在 表 空 间 开 头 有 许多 记 
录 整 个 系统 属性 的 页 面 。 ] 

InnoDB 提供 了 一 系列 系统 表 来 描述 元 数据 ， 其 中 SYS TABLES、SYS_COLUMNS、SYS _ 
INDEXES、SYS FIELDS 这 4 个 表 尤 其 重要 ， 称 为 基本 系统 表 (basic system table)。 系 统 表 空 
间 的 第 7 个 页 面 记 录 了 数据 字典 的 头 部 信息 。 














1 一 一 单 表 访 问 方 法 





对 于 MySQL 用 户 来 说 ，MySQL 其 实 就 是 一 个 软件 ， 平 时 用 的 最 多 的 就 是 查询 功能 。 
DBA 时 不 时 丢 过 来 一 些 慢 查询 语句 让 我 们 优化 ， 如 果 我 们 连 碍 询 是 怎么 执行 的 都 不 清楚 ， 优 
化 也 就 无 从 谈 起 了 。 所 以 ， 是 时 候 掌握 真正 的 技术 了 。 

第 1 章 曾 经 讲 过 ，MySQL Server 有 一 个 称 为 优化 器 的 模块 。MySQL Server 在 对 一 条 查询 语 
句 进行 语法 解析 之 后 ， 就 会 将 其 交 给 优化 器 来 优化 ， 优 化 的 结果 就 是 生成 一 个 所 谓 的 执行 计划 。 
这 个 执行 计划 表明 了 应 该 使 用 哪些 索引 进行 查询 、 表 之 间 的 连接 顺序 是 啥 样 的 ; 等 等 。 最 后 会 
按照 执行 计划 中 的 步骤 调用 存储 引擎 提供 的 接口 来 真正 地 执行 查询 ， 并 将 查询 结果 返 给 客户 端 。 

不 过 查询 优化 这 个 主题 有 点 儿 大 ， 在 学 会 跑 之 前 得 先 学 会 走 ， 所 以 本 章 先 来 殉 隔 MySQL 
怎么 执行 单 表 查询 的 〈 就 是 FROM 子 句 后 面 只 有 一 个 表 )。 需 要 强调 的 一 点 是 ， 在 学 习 本 章 前 
大 家 一 定 要 先 仔 细 看 过 前 面 章 节 中 关于 记录 结构 、 数 据 页 结构 以 及 索引 的 内 容 ， 并 确保 已 经 完 
全 掌握 了 这 些 内 容 ; 反之 ， 本 章 不 合适 你 。 

为 了 故事 的 顺利 发 展 ， 我 们 还 是 得 把 老 朋 友 single_ table 请 出 来 。 为 了 防止 大 家 把 这 个 老 
朋友 瑟 把 了， 我 们 再 看 一 下 它 的 表 结 构 : 

CREATE TABLE single table ( 

id INT NOT NULL AUTO INCREMENT., 
keyl VARCHAR(100), 

key2 INT, 

key3 VARCHAR(100), 

key Partl VARCHAR(100), 
key part2 VARCHAR (100) ， 
key_ part3 VARCHAR (100), 
common field VARCHAR (100) ， 
PRIMARY KEY (id), 

KEY idx keyl (key]l), 
UNIQUE KEY uk key2 (key2), 
KEY idx key3 (key3), 


KEY idx key part (key partl, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 


我 们 为 这 个 single_table 表 建 立 了 1 个 聚 艇 索引 和 4 个 二 级 索引 ， 分 别 是 : 

为 id 列 建立 的 聚 簇 索 引 ; 

为 keyl 列 建立 的 idx keyl 二 级 索引 ; 

为 key2 列 建立 的 uk key2 二 级 索引 ， 而 且 该 索引 是 唯一 二 级 索引 ; 

为 key3 列 建 立 的 idx key3 二 级 索引 ; 
@ 为 key partl、key part2、key part3 列 建立 的 idx key part 二 级 索引 ， 这 也 是 一 个 联合 索引 。 
接 下 来 需要 为 这 个 表 插 入 10,000 行 记录 。 除 id 列 外 ， 其 余 的 列 都 插入 随机 值 。 具 体 的 插 

入 语句 这 里 就 不 写 了 ， 大 家 自己 写 个 程序 插入 吧 (id 列 是 自 增 主键 列 ， 不 需要 手动 插入 )。 








10.1 访问 方法 的 概念 


想必 各 位 都 用 过 各 种 地 图 App 来 查找 到 某 个 地 方 的 路 线 吧 。 如 果 我 们 搜索 从 西安 钟楼 到 
大 雁 塔 的 路 线 ， 地 图 App 会 给 出 多 种 路 线 供 我 们 选择 。 如 果 我 们 实在 闲 的 没事 儿 干 并 且 足 够 
有 钱 ， 还 可 以 用 南 辕 北 匆 的 方式 绕 地 球 一 轩 到 达 目的 地 。 无 论 采 用 哪 一 种 方式 ， 我 们 最 终 的 目 
标 都 是 到 达 大 脸 塔 这 个 地 方 。 回 到 MySQL 中 来 ， 我 们 平时 所 写 的 那些 查询 语句 本 质 上 只 是 一 
种 声明 式 的 语法 ， 只 是 告诉 MySQL 要 获取 的 数据 符合 哪些 规则 ， 至 于 MySQL 背地 里 是 如 何 
把 查询 结果 搞 出 来 的 则 是 MySQL 自己 的 事 儿 。 

设计 MySQL 的 大 叔 把 MySQL 执行 查询 语句 的 方式 称 为 访问 方法 〈access method) 或 者 
沪 问 类 型 。 同 一 个 查询 语句 可 以 使 用 多 种 不 同 的 访问 方法 来 执行 ， 虽 然 最 后 的 查询 结果 都 是 一 
样 的 ， 但 是 不 同 的 执行 方式 花费 的 时 间 成 本 可 能 差距 甚大 。 就 像 是 从 钟楼 到 大 雁 塔 ， 你 可 以 从 
飞机 去 ， 坐 公交 车 去 ， 还 可 以 骑 共 享 单车 去 ， 当 然 也 可 以 走 着 去 。 

下 面 将 详细 啼 明 各 种 访问 方法 的 具体 内 容 。 


10.2 const | 


有 时 可 以 通过 主键 列 来 定位 一 条 记录 ， 比 如 下 面 这 个 查询 : 
SELECT * FROM single table WHERE id = 1438; 


MySQL 会 直接 利用 主键 值 在 聚 簇 索引 中 定位 对 应 的 用 户 记录 ， 如 图 10-1 所 示 。 


| 
a 





id 值 增 长 方向 
10-1 聚 簇 索引 示意 图 





与 之 类 似 ， 我 们 根据 唯一 二 级 索引 列 来 定位 一 条 记录 的 速度 也 是 贼 快 的 。 比 如 下 面 这 个 查询 : 
SELECT * FROM single table pie key2 = 3841; 

这 个 查询 的 执行 过 程 的 示意 图 如 图 10-2 所 示 。 

可 以 看 到 这 个 查询 的 执行 分 为 下 面 两 步 。 


步骤 1， 在 uk key2 对 应 的 B+ 树 索 引 中 ， 根 据 key2 列 与 常数 的 等 值 比较 条 件 定位 到 一 条 二 
级 索引 记录 。 


步骤 2， 然后 再 根据 该 记录 的 id 值 到 泰 第 索引 中 获取 到 完整 的 用 户 记录 。 


ee 
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key2 = 3,841 








uk _key2 索 引 示意 图 





key2 值 增长 方向 


聚 镀 索 引 示意 图 





id 值 增长 方向 


图 10-2 查询 执行 过 程 示意 图 


设计 MySQL 的 大 叔 认 为 ， 通 过 主键 或 者 唯一 二 级 索引 列 与 常数 的 等 值 比较 来 定位 一 条 记 
录 是 像 坐 火箭 一 样 快 的 ， 所 以 他 们 把 这 种 通过 主键 或 者 唯一 二 级 索引 列 来 定位 一 条 记录 的 访问 
方法 定义 为 const〈 意 思 是 常数 级 别 的 ， 代 价 是 可 以 忽略 不 计 的 )。 不 过 这 种 const 访问 方法 只 
能 在 主键 列 或 者 唯一 二 级 索引 列 与 一 个 常数 进行 等 值 比较 时 才 有 效 。 如 果 主 键 或 者 唯一 二 级 
索引 的 索引 列 由 多 个 列 构成 ， 则 只 有 在 索引 列 中 的 每 一 个 列 都 与 常数 进行 等 值 比较 时 ， 这 个 
const 访问 方法 才 有 效 〈 这 是 因为 只 有 在 该 索引 的 每 一 个 列 都 采用 等 值 比较 时 ， 才 可 以 保证 最 
多 只 有 一 条 记录 符合 搜索 条 件 )。 

对 于 唯一 二 级 索引 列 来 说 ， 在 查询 列 为 NULL 值 时 ， 情 况 比 较 特 殊 。 比 如 下 面 这 样 : 


SELECT * FROM single _ table WHERE key2 IS NULL; 


因为 唯一 二 级 索引 列 并 不 限制 NULL 值 的 数量 ， 所 以 上 述 语句 可 能 访问 到 多 条 记录 。 也 就 
是 说 上 面 这 个 语句 不 可 以 使 用 const 访问 方法 来 执行 (至 于 采用 什么 访问 方法 ， 会 在 下 文 介绍 )。 


10.3 ref 


有 时 ， 我 们 需要 将 某 个 普通 的 二 级 索引 列 与 常数 进行 等 值 比较 ， 比 如 这 样 : 
SELECT * FROM single table WHERE keyl = '‘'abc'; 


对 于 这 个 查询 ， 当 然 可 以 选择 全 表 扫 描 的 方式 来 执行 。 不 过 也 可 以 使 用 idx keyl 来 执行 ， 
此 时 对 应 的 扫描 区 间 就 是 ['abc，'abc]， 这 也 是 一 个 单 点 扫描 区 间 。 我 们 可 以 定位 到 keyl = 


Sy ES NO 1 | SP 
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'abc' 条 件 的 第 一 条 记录 ， 然 后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 不 符合 keyl = 
'abc' 条 件 为 止 。 由 于 查询 列表 是 * ， 因 此 针对 获取 到 的 每 一 条 二 级 索引 记录 ， 都 需要 根据 该 记 
录 的 id 值 执 行 回 表 操 作 ， 到 聚 艇 索引 中 获取 到 完整 的 用 户 记 录 后 再 发 送 给 客户 端 。 

由 于 普通 二 级 索引 并 不 限制 索引 列 值 的 唯一 性 ， 所 以 位 于 扫描 区 间 [ 'abc'，'abc] 中 的 二 级 索 
引 记录 可 能 有 多 条 ， 此 时 使 用 二 级 索引 执行 查询 的 代价 就 取决 于 该 扫描 区 间 中 的 记录 条 数 。 如 
果 该 扫描 区 间 中 的 记录 较 少 ， 则 回 表 操作 的 代价 还 是 比较 低 的 。 设 计 MySQL 的 大 叔 把 这 种 “ 搜 
索 条 件 为 二 级 索引 列 与 常数 进行 等 值 比 较 ， 形 成 的 扫描 区 间 为 单 点 扫描 区 间 ， 采 用 二 级 索引 来 
执行 查询 ”的 访问 方法 称 为 ref。 我 们 看 一 下 如 何 采 用 ref 访问 方法 执行 查询 ， 如 图 10-3 所 示 。 


keyl= 'abc. 








i dx_keyl 索 引 示 意图 





keyl 值 增长 方向 


聚 镶 索 引 示意 图 





图 10-3 ”ref 访问 方法 执行 查询 示意 图 


a 采用 二 级 索引 来 执行 查询 时 ， 其 实 每 获取 到 一 条 三 级 索引 记录 ， 就 会 立刻 对 其 执行 
-| 回 表 操作 ， 而 不 是 将 所 有 二 级 索引 记录 的 主键 值 都 收集 起 来 后 再 统一 执行 回 表 操作 。 图 
,ik 十 10-3 中 的 步骤 1 和 步骤 习 只 是 为 了 让 大 家 更 直观 地 区 分 要 科 二 级 家 引 孙 和 四 表 操作 ， 

大 家 清楚 执行 的 过 程 就 好 了 - 


从 图 10-3 可 以 看 出 ， 对 于 普通 的 二 级 索引 来 说 ， 通 过 索引 列 进 行 等 值 比较 后 可 能 会 匹配 
到 多 条 连续 的 二 级 索引 记录 ， 而 不 是 像 主键 或 者 唯一 二 级 索引 那样 最 多 只 能 匹配 一 条 记录 。 所 
以 这 种 ref 访问 方法 比 const 差 了 那么 一 点 。 另 外 ， 这 里 大 家 需要 注意 下 面 两 种 情况 。 
e 在 二 级 索引 列 允 许 存储 NULL 值 时 ， 无 论 是 普通 的 二 级 索引 , :还 是 唯一 二 级 索引 ， 它 
们 的 索引 列 并 不 限制 NULL 值 的 数量 ， 所 以 在 执行 包含 “key IS NULL” 形 式 的 搜索 
条 件 的 查询 时 ， 最 多 只 能 使 用 ref 访问 方法 ， 而 不 能 使 用 const 访问 方法 。 
e 对 于 索引 列 中 包含 多 个 列 的 二 级 索引 来 说 ， 只 要 最 左边 连续 的 列 是 与 常数 进行 等 值 比 


i 
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较 ， 就 可 以 采用 ref 访问 方法 。 比 如 下 面 这 几 个 查询 都 可 以 采用 ref 访问 方法 执行 
SELECT * FROM single table WHERE key partl = 'god like'; 
SELECT * FROM single table WHERE key partl = 'god like' AND key part2 = 'legendary'; 


SELECT * FROM single table WHERE key partl = 'god like’' AND key part2 = 'legendary' AND 
key_part3 = 'Penta kill'; 


如 果 索 引 列 中 最 左边 连续 的 列 不 全 部 是 等 值 比较 的 话 ， 它 的 访问 方法 就 不 能 称 为 ref 了 。 
比如 下 面 这 条 语句 (其 实 该 语句 利用 idx_key_part 索引 的 访问 方法 就 是 后 文 要 介绍 的 range): 


SELECT * FROM single table WHERE key partl] = 'god like' AND key part2 > 'legendary'; 


10.4 ref_or_null 


有 了 时， 我 们 不 仅 想 找 出 某 个 二 级 索引 列 的 值 等 于 某 个 常数 的 记录 ， 而 且 还 想 把 该 列 中 值 为 
NULL 的 记录 也 找 出 来 。 比 如 下 面 这 个 查询 : 


SELECT * FROM single table WHERE keyl = ‘abc' OR keyl IS NULL; 

当 使 用 二 级 索引 而 不 是 全 表 扫 描 的 方式 执行 该 查询 时 ， 对 应 的 扫 摘 区 间 就 是 [NULL, NULL] 
以 及 [abc, 'abc']， 此 时 执行 这 种 类 型 的 查询 所 使 用 的 访问 方法 就 称 为 ref_or_null。ref or_null 
访问 方法 的 执行 过 程 如 图 10-4 所 示 。 









keyl='abc' OR 
keyl IS NULL 


i dx_keyl 索 引 示 意图 扩 


keyl 值 增长 方向 





聚 铬 索引 示意 图 i 
: 了 人 开 信 和 se 所 于 
1 和 10 寺 扳 对 的 用 





id 值 增 长 方向 
10-4 ref or null 访问 方法 的 执行 过 程 





， 
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可 以 看 到 ，ref or null 访问 方法 只 是 比 ref 访问 方法 多 扫描 了 一 些 值 为 NULL 的 二 级 索引 记录 。 





10.5 range 


在 对 索引 列 与 某 一 个 常数 进行 等 值 比较 时 ， 才 会 使 用 到 前 文 介绍 的 几 种 访问 方法 (ref or 


null 比较 奇特 ， 还 计算 了 值 为 NULL 的 情况 )。 但 是 有 时 我 们 面 对 的 搜索 条 件 很 复杂 ， 比 如 下 
面 这 个 查询 : | 


SELECT * FROM single table WHERE key2 IN (1438, 6328) OR (key2 >= 38 AND key2 <= 79) ; 


如 果 使 用 idx_key2 执行 该 查询 ， 那么 对 应 的 扫描 区 间 就 是 [1438，1438]、[6328, 6328] 以 
及 [38, 79]。 设 计 MySQL 的 大 叔 把 “使 用 索引 执行 得 询 时 ， 对 应 的 扫描 区 间 为 若干 个 单 点 扫 
描 区 间或 者 范围 扫描 区 间 ” 的 访问 方法 称 为 range( 仅 包含 一 个 单 点 扫描 区 间 的 访问 方法 不 能 
称 为 range 访问 方法 ， 扫 描 区 间 为 (- ce ,+ ce ) 的 访问 方法 也 不 能 称 为 range 访问 方法 )。 


并 5 ~ 。 -一 一 -rw -we 一 


10.6 index | 四 加 


» » | 
来 看 下 面 这 个 查询 : | 
SELECT key partl, key part2, key part3 FROM single table WHERE key part2 = 'abc'; 


由 于 key part2 并 不 是 联合 索引 idx_key_part 的 索引 列 中 最 左边 的 列 ， 所 以 无 法 形成 合适 
的 范围 区 间 来 减少 需要 扫描 的 记录 数量 ， 从 而 无 法 使 用 ref 或 者 range 访问 方法 来 执行 这 个 语 
句 。 但 是 这 个 查询 符合 下 面 这 两 个 条 件 : 

@ 它 的 查询 列表 只 有 key part1、key part2 和 key part3 这 3 个 列 ， 而 索引 idx_key_part 

又 恰好 包含 这 3 个 列 ; 

e@ 搜索 条 件 中 只 有 key_part2 列 ， 这 个 列 也 包含 在 索引 idx_key part 中 。 

也 就 是 说 ， 我 们 可 以 直接 遍历 idx_key part 索引 的 所 有 二 级 索引 记录 ， 针 对 获取 到 的 每 一 
条 二 级 索引 记录 ， 都 判断 key_part2 ='abc' 条 件 是 否 成 立 。 如 果 成 立 ， 就 从 中 读 取 出 key_partl、 
key_part2、key_part3 这 3 个 列 的 值 并 将 它们 发 送 给 客户 端 。 很 显然 ， 在 这 种 使 用 idx_key_part 
索引 执行 上 述 查 询 的 情况 下 ， 对 应 的 扫描 区 间 就 是 (- = ,+ co )。 

由 于 二 级 索引 记录 比 育 簇 索 记录 小 得 多 〈 豪 簇 索引 记录 要 存储 用 户 定义 的 所 有 列 以 及 隐藏 
列 ， 而 二 级 索引 记录 只 需要 存放 索引 列 和 主键 )， 而 且 这 个 过 程 也 不 用 执行 回 表 操作 ， 所 以 直 
接 扫 描 全 部 的 二 级 索引 记录 比 直接 扫描 全 部 的 聚 簇 索引 记录 的 成 本 要 小 很 多 。 设 计 MySQL 的 
大 叔 就 把 这 种 扫描 全 部 二 级 索引 记录 的 访问 方法 称 为 index 访问 方法 。 

另外 ， 当 通过 全 表 扫 描 对 使 用 InnoDB 存储 引擎 的 表 执行 查询 时 ， 如 果 添 加 了 “ORDER BY 主 








— 一 
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键 ” 的 语句 ， 那 么 该 语句 在 执行 时 也 会 被 人 为 地 认定 为 使 用 的 是 index 访问 方法 ， 如 下 面 这 个 得 询 : 


SELECT * FROM single_ table ORDER BY id; 


多 

最 直接 的 查询 执行 方式 就 是 全 表 扫 描 (我 们 已 经 提 了 无 数 遍 了 )， 对 于 InnoDB 表 来 说 也 
就 是 直接 扫描 全 部 的 聚 簇 索 引 记录 。 设 计 MySQL 的 大 叔 把 这 种 使 用 全 表 扫 描 执 行 得 询 的 访问 
方法 称 为 all 访问 方法 。 


10.8 注意 事项 


10.8.1 重 温 二 级 索引 + 回 表 


在 使 用 索引 来 减少 需要 扫描 的 记录 数量 时 ， 一 般 情况 下 只 会 为 单个 索引 生成 扫描 区 间 。 比 
如 下 面 这 个 查询 : 


SELECT * FROM single table WHERE keyl = 'abc' AND key2 > 1000; 


查询 优化 器 会 识别 到 这 个 查询 中 的 两 个 搜索 条 件 : 

@ keyl='abc'; 

® key2 > 1000。 

如 果 使 用 idx_keyl 执行 查询 ， 对 应 的 扫描 区 间 就 是 [abe', 'abc'] ; 如 果 使 用 uk key2 执行 
查询 ， 对 应 的 扫描 区 间 就 是 (100, + ce )。 优 化 器 会 通过 访问 表 中 的 少量 数据 或 者 直接 根据 事 
先生 成 的 统计 数据 ， 来 计算 ['abc','abc'"] 扫描 区 间 包 含 多 少 条 记录 ， 再 计算 (100,+ ce ) 扫描 区 
间 包 含 多 少 条 记录 ， 之 后 再 通过 一 定 算法 来 计算 使 用 这 两 个 扫描 区 间 执 行 查询 时 的 成 本 分 别 是 
多 少 ， 最 后 选择 成 本 更 小 的 那个 扫 摘 区间 对 应 的 索引 执行 查询 《有关 选 择 使 用 哪个 索引 执行 查 
询 的 具体 步骤 ， 会 在 第 12 章 中 详细 叶 路 )。 

一 般 来 说 ， 等 值 查 找 比 范围 查找 需要 扫描 的 记录 数 更 少 (也 就 是 ref 访问 方法 一 般 比 range 
访问 方法 好 ; 但 这 并 不 总 是 成 立 ， 也 有 可 能 在 采用 ref 方 法 访问 时 ， 相 应 的 索引 列 为 特定 值 的 
行 数 特别 多 )。 我 们 假设 优化 器 决定 使 用 idx keyl 索引 来 执行 查询 ， 那 么 整个 查询 的 执行 过 程 
如 下 所 示 。 

步骤 1， 先 通过 idx keyl 对 应 的 B+ 树 定位 到 扫描 区 间 [abc' 'abc'] 中 的 第 一 条 二 级 索引 记录 。 

步骤 2， 根据 从 步骤 1 中 得 到 的 二 级 索引 记录 的 主键 值 执行 回 表 操 作 ， 得 到 完整 的 用 户 记 

录 ， 再 检测 该 记录 是 否 满足 key2>1000 条 件 。 如 果 满 足 则 将 其 发 送 给 客户 端 ， 否 则 
将 其 忽略 。 
步骤 3， 再 根据 该 记录 所 在 的 单 癌 链表 找到 下 一 条 二 级 索引 记录 ， 重 复 步 又 2 中 的 操作 ， 直 


到 某 条 二 级 索引 记录 不 满足 keyl ='abc' 条 件 为 止 。 





从 上 文 可 以 看 出 ， 每 次 从 二 级 索引 中 读 取 到 一 条 记录 后 ， 就 会 粮 3 

执行 回 表 操作 。 而 在 某 个 扫描 区 间 中 的 二 级 索引 记录 的 主键 值 是 无 库 

一 经 订 可 记录 寺庙 的 条 机 四 有 

i 相当 于 要 随机 读 取 一 个 聚 狂 索引 页 面 ， 而 这 些 随机 IJ/O 带 来 的 性 能 开销 比较 大 。 于 是 设 

全: 计 MySQL 的 大 叔 提出 了 一 个 名 为 Disk-Sweep Multi-Range Read (CMRR， 多 范围 读 取 ) 

小 由 十 “的 优化 措施 ， 中 先 污 和 | 部 分 一 本案 和- 村 机 析 二 本 全 区 和 玉生 
表 操作 。 pe ee 
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10.8.2 豪 引 合并 


前 文 说 过 ，MySQL 在 “一 般 情 况 下 ”只 会 为 单个 索引 生成 扫描 区 间 ， 但 还 存在 特殊 情况 。 在 
这 些 特殊 情况 下 ，MySQL 也 可 能 为 多 个 索引 生成 扫描 区 间 。 设 计 MySQL 的 大 叔 把 这 种 使 用 多 个 
索引 来 完成 一 次 查询 的 执行 方法 称 为 index merge (索引 合并 )。 有 具体 的 索引 合并 方法 有 下 面 3 种 。 

1.Intersection 索引 合并 | 

比如 现在 有 下 面 这 个 查询 : 


SELECT * FROM single table WHERE keyl = "a” RND key3 = 'b'; 


我 们 当然 可 以 选择 使 用 全 表 扫 描 的 方式 执行 该 查询 ， 不 过 由 于 搜索 条 件 涉及 keyl 和 key3 
列 ， 因 此 也 可 以 使 用 下 面 两 种 方案 执行 该 查询 。 
e 方案 1: 使 用 idx keyl 索引 执行 该 查询 ， 此 时 对 应 的 扫描 区 间 就 是 [a', 'a]。 对 于 获取 
到 的 每 条 二 级 索引 记录 ,| 根据 它 的 id 值 执 行 回 表 操 作 后 获取 到 完整 的 用 户 记录 ， 再 判 
断 key3= 'b' 条 件 是 否 成 立 。 这 里 需要 注意 ， 扫 描 区 间 ['a', 'a] 是 一 个 单 点 扫描 区 间 ， 也 
就 是 说 位 于 该 区 间 中 的 二 级 索引 记录 ， 其 keyl 列 的 值 都 为 'a'。 这 也 就 意味 着 这 些 二 级 
索引 记录 其 实 是 按照 主键 值 进行 排序 的 。 
e@ 方案 2: 使 用 idx key3 索引 执行 该 查询 ， 此 时 对 应 的 扫描 区 间 就 是 ['b', "b]。 对 于 获取 
到 的 每 条 二 级 索引 记录 ， 根 据 它 的 id 值 执行 回 表 操 作 后 获取 到 完整 的 用 户 记录 ， 再 判 
断 keyl= 'a' 条 件 是 否 成 立 。 这 里 需要 注意 ， 扫 描 区 间 ['b', 'b"] 是 一 个 单 点 扫描 区 间 ， 也 
就 是 说 位 于 该 区 间 中 的 二 级 索引 记录 ， 其 key3 列 的 值 都 为 b'。 这 也 就 意味 着 这 些 二 级 
索引 记录 其 实 是 按照 主键 值 进 行 排序 的 。 
其 实 除 了 全 表 扫 描 以 及 上 面 提 到 的 方案 1 和 方案 2 之 外 ， 还 可 以 有 方案 3， 具体 如 下 。 
e 方案 3: 同时 使 用 idx keyl 和 idx key3 执行 查询 。 也 就 是 在 idx_ keyl 中 扫描 keyl 值 
在 [a', 'a] 区 间 中 的 二 级 索引 记录 ， 同 时 在 idx key3 中 扫描 key3 值 在 ['b', "b'] 区 间 中 的 
二 级 索引 记录 ， 然 后 从 两 者 的 操作 结果 中 找 出 id 列 值 相同 的 记录 〈 即 找 出 它们 共有 的 
id 值 )。 然 后 再 根据 这 些 共有 的 id 值 执行 回 表 操 作 那些 仅 在 单个 扫描 区 间 中 包含 的 
id 值 就 不 需要 执行 回 表 操作 了 ) ， 这 样 可 能 省 下 很 多 回 表 操 作 带 来 的 开销 。 


| 


| 


| 
| 
| 
] 
| 
| 
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这 里 的 方案 3 就 是 所 谓 的 Intersection 索引 合并 。Intersection 的 中 文 含义 就 是 “交集 ”，Intersection 
索引 合并 指 的 就 是 对 从 不 同 索引 中 扫描 到 的 记录 的 id 值 取 交 集 ， 只 为 这 些 id 值 执 行 回 表 操 作 。 
如 果 使 用 Intersection 索引 合并 的 方式 执行 查询 ， 并 且 每 个 使 用 到 的 索引 都 是 二 级 索引 的 话 ， 
则 要 求 从 每 个 索引 中 获取 到 的 二 级 索引 记录 都 是 按照 主键 值 排序 的 。 比 如 在 上 面 的 查询 中 ， 在 
idx keyl 的 ['a', 'a] 扫描 区 间 中 的 二 级 索引 记录 都 是 按照 主键 值 排 序 的 ， 在 idx_key3 的 [b', "b] 
扫描 区 间 中 的 二 级 索引 记录 也 都 是 按照 主键 值 排序 的 。 

为 什么 会 要 求 从 不 同 二 级 索引 中 获取 到 的 二 级 索引 记录 都 按照 主键 值 排 好 序 呢 ? 这 主要 出 
于 两 方面 的 考虑 : 

e 从 两 个 有 序 集合 中 取 交 集 比 从 两 个 无 序 集合 中 取 交 集 要 容易 得 多 ; 

e 如 果 获 取 到 的 id 值 是 有 序 排列 的 ， 则 在 根据 这 些 id 值 执行 回 表 操作 时 就 不 再 是 进行 单 

纯 的 随机 IO 〈 这 些 id 值 是 有 序 的 ) ， 从 而 会 提高 效率 。 
假设 idx keyl 的 扫描 区 间 ['a', 'a] 中 二 级 索引 记录 的 id 值 是 排 好 序 的 ， 且 顺序 为 1、3、5; 
idx key3 的 扫描 区 间 ['b', "b] 中 二 级 索引 记录 的 id 值 也 是 排 好 序 的 ， 且 顺序 为 2、3、4， 那 么 
这 个 查询 在 使 用 Intersection 索引 合并 来 执行 时 ， 过 程 如 下 所 示 。 
步骤 1. 先 从 idx_ keyl 索引 的 扫描 区 间 [a, 'a] 中 取出 第 一 条 二 级 索引 记录 ， 该 记录 的 主键 
值 为 1。 然后 从 idx key3 索引 的 扫描 区 间 [b', bb] 中 取出 第 一 条 二 级 索引 记录 ， 该 
记录 的 主键 值 为 2。 因 为 1<2， 所 以 直接 把 从 idx keyl 索引 中 取出 的 那 条 主键 值 为 
1 二 级 索引 记录 丢弃 。 

步骤 2. 接着 继续 从 idx keyl 索引 的 扫描 区 间 [a, 'a] 中 取出 下 一 条 二 级 索引 记录 ， 该 记录 
的 主键 值 为 3。 步 又 1 中 从 idx_key3 索引 的 扫描 区 间 [b, b1] 中 取出 的 二 级 索引 记 
录 的 主键 值 为 2。 因 为 3>2， 所 以 直接 把 步骤 1 中 从 idx key3 索引 的 扫描 区 间 ["b,， 
bb] 中 取出 的 主键 值 为 2 的 那 条 二 级 索引 记录 丢弃 。 
步骤 3. 接着 继续 从 idx key3 索引 的 扫描 区 间 [b, bb] 中 取出 下 一 条 二 级 索引 记录 ， 该 记录 
的 主键 值 为 3。 步 骤 2 中 从 idx_ keyl 索引 的 扫描 区 间 [a,'a] 中 取出 的 二 级 索引 记录 
的 主键 值 为 3。 因 为 3=3， 也 就 意味 着 获取 主键 交集 成 功 ， 然 后 根据 该 主键 值 执行 
回 表 操 作 ， 获 取 到 完整 的 用 户 记 录 后 将 其 发 送 给 客户 端 。 

步骤 4. 接着 从 idx keyl 索引 的 扫描 区 间 ['a', 'a] 中 取出 下 一 条 二 级 索引 记录 ， 该 记录 的 主 
键 值 为 5。 然 后 从 idx key3 索引 的 扫描 区 间 [b', b] 中 取出 下 一 条 二 级 索引 记录 ， 
该 记录 的 主键 值 为 4。 因 为 5>4， 所 以 直接 把 从 idx_key3 索引 的 扫描 区 间 [b', b1] 中 
取出 的 那 条 主键 值 为 4 的 二 级 索引 记录 丢弃 。 

步骤 5， 接着 从 idx_key3 索引 的 扫描 区 间 [b, "b] 中 取出 下 一 条 符合 条 件 的 二 级 索引 记录 。 

发 现 没 有 了 ， 然 后 结束 查询 。 

别 看 这 里 写 得 哪 嗪 ， 其 实 这 个 执行 过 程 可 快 了 。 

如 果 在 使 用 某 个 二 级 索引 执行 查询 时 ， 从 对 应 的 扫描 区 间 中 读 取 出 的 二 级 索引 记录 不 是 按 
照 主键 值 排序 的 ， 则 不 可 以 使 用 Intersection 索引 合并 来 执行 查询 。 比 如 下 面 这 个 查询 : 


SELECT * FROM single _ table WHERE keyl > 'a' AND key3 = 'b' :; 


因为 从 idx_key1 的 扫描 区 间 ('a', + = ) 获取 到 的 记录 并 不 是 按照 主键 值 排序 的 ， 所 以 上 





了 
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述 便 询 不 能 使 用 Intersection 索引 合并 的 方式 执行 。 
冉 看 另 一 个 例子 : 


SELECT * FROM single table WHERE keyl = 'a' AND key partl = 'a'; 


对 于 idx key part 索引 来 说 ， 它 的 二 级 索引 记录 是 先 按照 key_partl 列 的 值 进行 排序 的 ; 
任 key_partl 值 相同 的 情况 下 ， 再 按照 key_part2 值 进 行 排序 。 那 么 在 Idx_ key part 二 级 索引 
中 ，key partl 值 为 'a 的 二 级 索引 记录 并 不 是 按照 主键 值 进行 排序 的 ， 所 以 上 述 查询 也 不 能 使 
用 Intersection 索引 合并 的 方式 执行 。 


万 外 ， 聚 徐 索 引 是 比较 特殊 的 存在 ， 因为 聚 簇 索引 记录 本 身 就 是 按照 主键 值 进行 排序 的 。 


SELECT * FROM single table WHERE keyl = 'a' RND id > 9000; 


从 idx_keyl 的 扫描 区 间 ['a', 'a1] 中 获取 的 二 级 索引 记录 是 按照 主键 值 排序 的 ， 从 育 簇 索引 
的 扫描 区 间 (9000, + co ) 中 获取 的 聚 簇 索引 记录 也 是 按照 主键 值 排 序 的 ， 所 以 上 述 查 询 可 以 
使 用 Intersection 索引 合并 的 方式 执行 。 不 过 实际 在 实现 这 种 包含 聚 簇 索引 的 Intersection 索引 
合并 方法 时 ， 并 不 会 真正 地 扫描 聚 簇 索引 记录 。 都 么 它 是 怎么 实现 的 昵 ? 大 家 都 知道 ， 二 级 索 
引 记 录 是 包含 索引 列 和 主键 列 的 ， 在 索引 列 值 相同 的 情况 下 ， 二 级 索引 记录 是 按照 主键 值 的 大 
小 排序 的 。 所 以 上 述 查 询 在 使 用 Intersection 索引 合并 时 ， 搜 索 条 件 id > 9000 其 实 并 不 会 为 聚 
读 索 引 形 成 扫描 区 间 [9000, + = ]， 和 而 是 与 搜索 条 件 key1 ='a' 一 起 为 idx keyl 形成 扫描 区 间 (('a'， 
2000), (a, + ce ))。 也 就 是 说 我 们 可 以 直接 使 用 idx_keyl 执行 查询 ， 定 位 到 符合 keyl = 'a' AND 
5>?000 条 件 的 第 一 条 二 级 索引 记录 ， 然 后 沿 着 记录 所 在 的 单 向 链表 向 后 扫描 ， 直 到 某 条 记录 
个 符合 keyl = 'a' 条 件 或 者 id > 9000 条 件 为 止 。 当 然 ， 针对 获取 到 的 每 一 条 二 级 索引 记录 ， 都 
而 要 执行 回 表 操作 。 在 这 个 过 程 中 不 需要 扫描 聚 簇 索引 的 扫描 区 间 (9000, + = ) 中 的 聚 簇 索 
可 已 当 : 

2. Union 索引 合并 

比如 现在 有 下 面 这 个 查询 : 


SELECT * FROM single table WHERE keyl = 'a' OR key3 = 'b' 


我 们 能 仅 使 用 idx keyl 或 者 idx_key3 执行 上 述 查询 吗 ? 不 行 ! 以 idx keyl 为 例 ， 假如 使 
用 idx_keyl 执行 上 述 查 询 ， 那么 对 应 的 扫描 区 间 就 是 (- co ,+ ce )， 而 且 需 要 针对 获取 到 的 
每 一 条 二 级 索引 记录 ， 都 执行 回 表 操 作 。 在 这 种 情况 下 是 不 使 用 idx keyl 执行 该 查询 的 。 

那么 ， 我们 就 只 能 使 用 全 表 扫 描 的 方式 执行 上 述 查询 了 吗 ? 也 不 是 。 我 们 可 以 同时 使 用 
Idx_keyl 和 idx_key3 来 执行 查询 。| 也 就 是 在 idx_keyl 中 扫描 keyl 值 位 于 [av, 'a] 区 间 中 的 二 级 
索引 记录 ， 同 时 在 idx key3 中 扫描 key3 值 位 于 ['b', tb] 区 间 中 的 二 级 索引 记录 ， 然后 根据 二 级 
系 引 记录 的 id 值 在 两 者 的 结果 中 进行 去 重 ， 再 根据 去 重 后 的 id 值 执行 回 表 操作 ， 这 样 重复 的 id 
值 只 需 回 表 一 次 。 这 种 方案 就 是 所 谓 的 Union 索引 合并 。Union 的 中 文 含义 就 是 “并 集 ”， Union 
索引 合并 指 的 就 是 对 从 不 同 索引 中 扫描 到 的 记录 的 这 值 取 并 集 ， 为 这 些 jd 值 执行 回 表 操作 。 

如 果 使 用 Union 索引 合并 的 方式 执行 查询 ， 并 且 每 个 使 用 到 的 索引 都 是 二 级 索引 的 话 ， 则 
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要 求 从 每 个 索引 中 获取 到 的 二 级 索引 记录 都 是 按照 主键 值 排序 的 。 比 如 在 上 面 的 查询 中 ， 在 
idx keyl 的 ['a', 'a] 扫描 区 间 中 的 二 级 索引 记录 都 是 按照 主键 值 排序 的 ， 在 idx_key3 的 [b, bb] 
扫描 区 间 中 的 二 级 索引 记录 也 都 是 按照 主键 值 排序 的 。 这 也 是 出 于 下 面 两 个 方面 的 考虑 : 

e 从 两 个 有 序 集合 执行 去 重 操 作 比 从 两 个 无 序 集合 中 执行 去 重 操作 容易 一 些 ; 

e 如 果 获 取 到 的 id 值 是 有 序 的 话 ， 那 么 在 根据 这 些 id 值 执行 回 表 操作 时 就 不 是 进行 单纯 

的 随机 IO 〈 这 些 id 值 是 有 序 的 ) ， 从 而 会 提高 效率 。 

如 果 在 使 用 某 个 二 级 索引 执行 查询 时 ， 从 对 应 的 扫描 区 间 中 读 取 出 的 二 级 索引 记录 不 是 按 

照 主 键 值 排 序 的 ， 则 不 可 以 使 用 Union 索引 合并 的 方式 执行 查询 。 比 如 下 面 这 个 查询 : 


SELECT * FROM single table WHERE keyl > 'a' OR key3 = 'b' :; 


因为 从 idx_keyl 的 扫描 区 间 ('a', + c ) 中 获取 到 的 记录 并 不 是 按照 主键 值 排序 的 ， 所 以 
上 述 查 询 不 能 使 用 Union 索引 合并 的 方式 执行 。 
再 看 另 一 个 例子 : 


SELECT * FROM single table WHERE keyl = 'a' AND key partl = 'a'; 


对 于 idx key part 索引 来 说 ， 它 的 二 级 索引 记录 先 按照 key partl 列 的 值 进 行 排 序 ， 在 
key partl 值 相同 的 情况 下 ， 再 按照 key part2 值 进行 排序 。 那 么 在 idx key part 二 级 索引 中 ， 
key partl 值 为 'a' 的 二 级 索引 记录 并 不 是 按照 主键 值 进 行 排序 的 ， 所 以 上 述 查 询 也 不 能 使 用 
Union 索引 合并 的 方式 执行 。 

另外 ， 育 簇 索引 是 比较 特殊 的 存在 ， 因 为 聚 徐 索引 记录 本 身 就 是 按照 主键 值 进行 排序 的 。 
比如 对 于 下 面 这 个 查询 : 


SELECT * FROM single table WHERE keyl = 'a' OR id > 9000; 


从 idx keyl 的 扫描 区 间 ['a', 'a] 中 获取 的 二 级 索引 记录 是 按照 主键 值 排序 的 ， 从 聚 簇 索 引 
的 扫描 区 间 (9000, + = 〉 中 获取 的 聚 簇 索引 记录 也 是 按照 主键 值 排序 的 ， 所 以 上 述 查 询 也 可 
以 使 用 Intersection 索引 合并 的 方式 执行 。 

对 于 下 面 这 个 查询 : 


SELECT * FROM single table WHERE (key partl = 'a' AND key _ part2 = '‘'b' AND key part3 = 'c') OR 
(Kkeyl = 'a' AND key3 = 'b'); 


我 们 可 以 先 通过 idx keyl 和 idx key3 执行 Intersection 索引 合并 ， 这 样 可 以 找到 与 搜索 条 
件 (keyl ='a' AND key3 = 'b') 匹配 的 记录 ,然后 再 通过 idx key part 执行 Union 索引 合并 即 可 。 

3. Sort-Union 索引 合并 

Union 索引 合并 的 使 用 条 件 太 苛刻 ， 它 必须 保证 从 各 个 索引 中 扫描 到 的 记录 的 主键 值 是 有 
序 的 。 比 如 下 面 这 个 查询 就 无 法 使 用 Union 索引 合并 : 


SELECT * FROM single table WHERE keyl < 'a' OR key3 > 'z' 


不 过 keyl<'a' 和 key3>'z' 这 两 个 条 件 又 特别 让 我 们 动心 ， 所 以 我 们 可 以 这 样 操作 : 
e 先 根据 keyl<'a' 条 件 从 idx_ keyl 二 级 索引 中 获取 二 级 索引 记录 ， 并 将 获取 到 的 二 级 索 
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引 记录 的 主键 值 进 行 排序 ; 


。 骨 根 据 key3 > 忆 条 件 从 idx_key3 二 级 索引 中 获取 二 级 索引 记录 ， 并 将 获取 到 的 二 级 索 
引 记录 的 主键 值 进 行 排序 ; 


” 因为 上 述 两 个 二 级 索引 主键 值 都 是 排 好 序 的 ， 所 以 剩 下 的 操作 就 与 Union 索引 合并 方 
式 一 样 了 。 | 

谍 们 把 上 面 这 种 “ 先 将 从 各 个 索引 中 扫描 到 的 记录 的 主键 值 进行 排序 ， 再 按照 执行 Unio。 
索引 合并 的 方式 执行 查询 ” 的 方式 称 为 Sort-Union 索引 合并 。 很 显然 ，Sort-Union 索引 合并 比 
单纯 的 Union 合并 多 了 一 步 对 二 级 索引 记录 的 主键 值 进行 排序 的 过 程 。 


为 哈 有 Sort-Union 索 | 合并 ， 而 没有 Sort-Intersection 索引 合并 呢 ? 是 的 ， 在 MySQL 
中 确实 没有 Sort-Intersec ion 索引 合并 这 一 说 ， 不 过 在 MySQL 的 近亲 一 “MariaDB 数据 : 
库 中 实现 了 Sort-Intersection 索引 合并 . 2 ee 


| 证 我 的 理解 ，SortUnion 家 引 合并 针对 的 是 《单独 根据 搜索 条 件 从 菜 个 二 级 案 引 
清 : 中 获取 的 记录 数 比较 少 ”的 使 用 场景 这 样 即使 对 这 些 二 级 索引 记录 按照 主键 值 进行 排 
小 贴 十 序 ， 成 本 也 不 会 太 高 而 Intersection 索引 合并 针对 的 天“ 尘 独 根据 搜索 条 件 从 某 个 二 级 
索引 中 获取 的 记录 数 太 多 ， 导致 回 表 成 本 太 大 ， 的 使 用 场景 ， 使 用 Intersactions 索引 合 
并 后 可 以 明显 降低 回 表 成 本 。 但是， 如果 加 入 Sort-Intersection 索引 合并 ， 就 需要 为 大 量 - 
0 
本 都 要 高 ， 于 是 设计 MyS L 的 大 叔 也 就 没有 引入 Sort-Intersection 这 个 玩意 夕 
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得 询 语句 在 本 质 上 是 一 种 声明 式 的 语法 ， 县 体 执行 方式 有 很 多 种 。 设 计 MySQL 的 大 叔 根 
据 不 同 的 场景 划分 了 很 多 种 访问 方法 ， 比 如 
@ const: 
ref ; 
ref or nul] ; 
range ; 
index ; 
all ; 


® Index _ merge。 

有 的 查询 可 以 使 用 索引 合并 的 方式 利用 多 个 素 引 完成 查询 ， 具体 方法 有 下 面 3 种 : 
e Intersection 索引 合并 : 

9 Union 索引 合并 ; 


e Sort-Union 索引 合并 。 
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关系 型 数据 库 一 个 至 关 重 要 的 概念 就 是 Join (连接 )。 相 信 很 多 同学 在 初学 连接 的 时 候 一 
脸 慌 懂 ， 理 解 了 连接 的 语义 之 后 又 可 能 不 明白 各 个 表 中 的 记录 到 底 是 怎么 连 起 来 的 ， 以 至 于 在 
使 用 的 时 候 常 常 陷 入 下 面 这 两 种 误区 : 

e@e 业务 至 上 ， 不管 三 七 二 十 一 ， 再 复杂 的 查询 也 在 一 个 连接 语句 中 搞定 ; 

e 敬而远之 ，DBA 上 次 报 过 来 的 慢 碍 询 就 是 因为 使 用 了 连接 导致 的 ， 以 后 再 也 不 敢 用 了 。 

本 章 就 来 防 明 一 下 连接 的 原理 。 考 虑 到 有 些 读者 可 能 息 了 连接 是 喻 ， 或 者 压根 儿 就 不 知道 
连接 是 哈 ， 为 了 节省 他 们 宝贵 的 时 间 以 及 为 了 给 咱们 这 本 书 竣 字 数 ， 咱 们 先 来 介绍 一 下 MySQL 
中 支持 的 连接 语法 。 


11.1 ”连接 简介 


11.1.1 连接 的 本 质 
为 了 故事 的 顺利 发 展 ， 我 们 先 建立 两 个 简单 的 表 ， 并 给 它们 填充 一 点 数据 : 


mysql> CREATE TABLE tl (ml int, nl char{(1)); 
Query OK, 0 rows affected (0.02 sec) 


mySqlj> CREATE TABLE t2 (m2 int, n2 char (1)); 
Query OK, 0 rows affected (0.02 sec) 


mysql> INSERT INTO tl VALUES(1, 'a'), (2, 'b’'), (3, 'c'); 
Query OK, 3 rows affected (0.00 sec) 
Records: 3 Duplicates: 0 Warnings: 0 


mysql> INSERT INTO t2 VALUES(2, 'b'), (3, ‘ce'), (4, 'd'); 


Query OK, 3 rows affected (0.00 sec) 
Records: 3 Duplicates: 0 Warnings: 0 


我 们 成 功 建立 了 tL、t 两 个 表 。 这 两 个 表 都 有 两 个 列 : 一 个 是 INT 类 型 的 ， 另 外 一 个 是 
CHAR(1) 类 型 的 。 填 充 好 数据 的 两 个 表 看 起 来 如 下 面 这 样 : 


mysql> SELECT * FROM 七 1; 


am 





3 rows in set (0.00 sec) 


mysql> SELECT * FROM t2; 





3 rows in set (0.00 Sec) 


" 从 本 质 上 来 说 ， 连 接 就 是 把 各 个 表 中 的 记录 都 取出 来 进行 依次 匹配 ， 并 把 匹配 后 的 组 合 发 
送 给 客户 端 。 把 tl 和 2 来 的 过 和 各国 till 所 示 ， 


结果 集 








图 11-1 tl 和 也 两 个 表 的 连接 过 程 


这 个 过 程 看 起 来 就 是 把 tl 表 中 的 记录 和 局 表 中 的 记录 连 起 来 组 成 一 个 新 的 重大 的 名 坟 
“过 这 个 查询 过 程 称 为 连接 查询 。 如 果 连 接 查询 的 结果 集中 包含 一 个 表 中 的 每 一 条 记录 与 另 _- 
“ 表 中 的 每 一 条 记录 相互 匹配 的 组 合 ， 那 么 这 样 的 结果 集 就 可 以 称 为 笛 卡 儿 积 。 因 为 表 1 中 
有 3 条 记录 ， 表 世 中 也 有 3 条 记录 ， 所 以 这 两 个 表 连接 之 后 的 笛 卡 儿 积 就 有 3 x 3 =9 条 记录 
在 MySQL 中 ， 连接 查询 的 语法 也 很 随意 ， 只 要 在 FROM 语句 后 边 跟 多 个 表 名 就 好 了 。 比 如 ， 
我 们 把 tl 表 和 世 表 连 接 起 来 的 查询 语句 可 以 写成 这 样 ， 





mysql> SELECT * FROM tl1，t2 | 
+~~- 一 一 一 +- 一 -一 -一 +~- 一 一 一 一 一 + 一 一 一 一 一 一 + 
| ml | nl | m2 | n2 | 
+-- 一 ~ 一 一 + 一- 一 -~ + 一 一 一 一 一 一 + 一 一 一 一 一 十 
| 2. 各 | 2 小包 | 
| «| DD | " 谢 | 
| 3 | 1 | 
| 1 | a | 3 站 | 
| 2 上 | 加 | 了- | 
| 1 | | 用- | 
| 二 上 | 4 |1d | 
| | 人 | 4 | 入 | 
| 3 1 | 4 | ad | | 
+-~-- 一 一 一 +~---- 一 一 +t- 一 一 一 一 一 + 一 一 一 一 一 一 四 


9 rows in set (0.00 Sec) 
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11.1.2 ”连接 过 程 简介 


如 果 乐 意 ， 我 们 可 以 连接 任意 数量 的 表 。 但 是 如 果 不 附加 任何 限制 条 件 ， 这 些 表 连接 起 来 
产生 的 向 卡 儿 积 可 能 是 非常 巨大 的 。 比 如 ，3 个 100 行 记录 的 表 连 接 起 来 产生 的 笛 卡 儿 积 就 有 
100 x 100 x 100 = 1,000,000 行 记录 ! 所 以 在 连接 时 过 滤 掉 特定 的 记录 组 合 是 有 必要 的 。 在 连接 
查询 中 的 过 滤 条 件 可 以 分 成 下 面 两 种 。 

@ 涉及 单 表 的 条 件 : 这 种 只 涉及 单 表 的 过 滤 条 件 已 经 在 前 文中 提 到 过 一 万 迄 了 ， 我 们 之 

前 也 一 直 称 为 搜索 条 件 。 比 如 tl.ml>l 是 只 针对 tl 表 的 过 滤 条 件 ，t2.n2<'d' 是 只 针对 
t2 表 的 过 滤 条 件 。 

@ 涉及 两 表 的 条 件 : 这 种 过 滤 条 件 我 们 之 前 没 见 过 ， 比 如 tlml=D2.m2、tl.nl>t2.n2 等 。 

这 些 条 件 涉及 了 两 个 表 ， 稍 后 会 详细 分 析 这 种 过 滤 条 件 是 如 何 使 用 的 。 
下 边 我 们 看 一 下 携带 过 滤 条 件 的 连接 查询 的 大 致 执行 过 程 ， 比 如 说 下 面 这 个 查询 语句 : 


SELECT * FROM tl1, t2 WHERE tl.ml > 1 AND tl.ml = t2.m2 AND t2.n2 < 'd'; 


在 这 个 查询 中 ， 我 们 指明 了 3 个 过 滤 条 件 : 

@ tl.ml>1; 

@ tl.ml=t2.m2:; 

@ tn2<d'. 

这 个 连接 查询 的 执行 过 程 大 致 如 下 。 

步骤 1. 首先 确定 第 一 个 需要 查询 的 表 ， 这 个 表 称 为 驱动 表 。 

怎样 在 单 表 中 执行 查询 语句 己 经 在 前 一 章 中 都 踪 明 过 了 : 只 需要 选取 代价 最 小 的 那 种 访问 方法 
去 执行 单 表 查询 语句 就 好 了 “〔 就 是 说 从 const、ref、ref or_ null、range、index merge、index、all 这 些 
执行 方法 中 选取 代价 最 小 的 去 执行 查询 即 可 )。 这 里 假设 使 用 tl 作为 驱动 表 ， 那 么 就 需要 到 tl 表 中 
查找 满足 tLml>l 的 记录 。 因 为 表 中 的 数据 太 少 ， 我 们 也 没 在 表 上 建立 二 级 索引 ， 所 以 我 们 将 得 询 
tl 表 所 用 的 访问 方法 设 定 为 al， 也 就 是 采用 全 表 扫描 的 方式 执行 单 表 查询 。 查 询 过 程 如 图 11-2 所 示 。 


ee 
| 
| 





~ 2421 
8 . 






下 访问 方法 : al 


tml>1l 





图 11-2 查询 过 程 


可 以 看 到 ，tl 表 中 符合 t1.m1>1 的 记录 有 2 条 。 

步骤 2. 步骤 1 中 从 驱动 表 每 获取 到 一 条 记录 ， 都 需要 到 也 表 中 查找 匹配 的 记录 。 

所 谓 匹 配 的 记录 ， 指 的 是 符合 过 滤 条 件 的 记录 。 因 为 是 根据 tl 表 中 的 记录 去 找 世 表 中 的 
记录 ， 所 以 世 表 也 可 以 称 为 被 驱动 表 。 步 又 1 从 驱动 表 中 得 到 了 2 条 记录 ， 也 就 意味 着 需要 
查询 2 次 世 表 。 此 时 涉及 两 个 表 的 列 的 过 滤 条 件 tl1.ml = t2.m2 就 派 上 用 场 了 。 

对 于 从 tl 表 中 查询 得 到 的 第 一 条 记录 ， 也 就 是 当 tLml=2 时 ， 过 滤 条 件 tLml=2m2 就 相当 于 
2m2-2。 所 以 此 时 乌 表 相当 于 有 了 tm2-2、t2n2<d 这 两 个 过 滤 条 件 ， 然 后 到 也 表 中 执行 单 表 查询 。 

对 于 从 tl 表 中 查询 得 到 的 第 二 条 记录 ， 也 就 是 当 t.ml=3 时 ， 过 滤 条 件 t1.ml1=t2.m2 就 相 
当 于 也 m2=3。 所 以 此 时 世 表 相 当 于 有 了 t2.m2=3、t2.n2<'d' 这 两 个 过 滤 条 件 ， 然 后 到 世 表 中 





| 
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执行 单 表 查 询 。 





| 

i 所 以 整个 连接 查询 的 执行 过 程 如 图 11.3 所 示 。 

| 

2 t2.n2<'d' 
Fl 访问 方法 :all 
tm 








图 11-3 ”整个 连接 查询 的 执行 过 程 
也 就 是 说 ， 整 个 连接 查询 最 后 的 结果 只 有 2 条 符合 过 波 条 件 的 记 灵 


+- 一 一 一 一 +~ 一 一 一 一 一 +- 一 一 一 一 一 + 一 一 一 一 一 一 
z | ml | nl | m2 LW | 
+ 一 一 一 一 一 +~ 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 
| 2 1 b | 长 慷 | 
| 区 | 外 右 | 
+-- 一 一 一 一 + 一 一 一 一 一 一 +- 一 -一 一 一 + 一 -一 一 一 一 - 





全 一 面 的 两 个 步骤 可 以 看 出 ， 我 们 上 边 晓 劝 的 这 个 两 表 连 接 查 询 共 需 要 查询 1 次 1 表 、2 
信也 表 。 当 然 这 是 特定 过 滤 条 件 下 的 结果 。 如 果 把 tl.ml>1 这 个 条 件 去 挤 ， 那 么 从 1 表 中 二 


于 的 记录 就 有 3 条 ， 就 需要 查询 3 次 2 表 了 。 也 就 是 说 ， 在 两 表 的 连接 查询 中 ， 驱 动 表 只 过 
要 访问 一 次 ， 被 驱动 表 可 能 需要 访问 多 次 。 


: 这 里 需要 强调 一 下 ， 
全 : 方 ， 然后 再 去 被 驱动 表 中 查 
中 寻找 匹配 的 记录 . 







TE a 和 
be 本 A- > ‘ 
-A 2 河和 ee 

人 EN 全 

ya a 
sp 


11.1.3 ”内 连接 和 外 连接 
为 了 大 家 更 好 地 理解 后 面 的 内 容 ， 我 们 先 创建 两 个 有 现实 意义 的 表 ， 


CREATE TABLE student ( 


number INT NOT NULL AUTO_INCREMENT COMMENT t 袁 号 * 
name VARCHAR (5) COMMENT a 
业 '， 





major VARCHAR (30) COMMENT ' 
PRIMARY KEY (number) 


) Engine=InnoDB CHARSET=utf8 Cohan ' 学 生 信息 表 ' ; 


CREATE TABLE score ( | 
number INT COMMENT 此 二 
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subject VARCHAR(30) COMMENT ' 科 目 '， 
score TINYINT COMMENT ' 成 绩 '， 
PRIMARY KEY (number, subject) 
) Engine=InnoDB CHARSET=utf8 COMMENT ' 学 生成 绩 表 ' ; 


这 里 新 建 了 一 个 学 生 信息 表 和 一 个 学 生成 绩 表 。 我 们 向 这 两 个 表 中 插入 一 些 数据 。 为 了 节 
省 篇 幅 ， 具 体 插入 过 程 就 不 嘴 明 了 。 插 入 数据 后 的 表 如 下 所 示 : 


mysql> SELECT * FROM student; 


二 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| number | name | major | 
二 一 一 一 一 一 一 一 一 一 -二 -一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| 20180101 | 张 三 | 软件 学 院 | 
| 20180102 | 李 四 | 计算 机 科学 与 工程 | 
| 20180103 | 王 五 | 计算 机 科学 与 工程 | 
二 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
3 rows in set (0.00 sec) 


mysql> SELECT * FROM score; 


+ 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| number | subject | score | 
+ 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 -一 -~ 一- 一 ~ 十 一 一 一 一 一 一 一 十 
| 20180101 | MySQL 是 怎样 运行 的 | 78 | 
| 20180101 | 深入 浅 出 MySQL | 88 | 
| 20180102 | 深入 浅 出 MySQL | 98 | 
| 20180102 | MySQL 是 怎样 运行 的 | 100 | 
+- 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 十 一 一 一 一 一 一 一 + 


4 rows in set (0.00 sec) 


现在 ， 要 想 把 各 位 学 生 的 考试 成 绩 都 查询 出 来 ， 就 需要 进行 两 表 连 接 了 (因为 score 表 中 
没有 姓名 信息 ， 所 以 不 能 单纯 只 查询 score 表 )。 连 接 过 程 就 是 从 student 表 中 取出 记录 ， 然 后 
在 score 表 中 查找 number 相同 的 成 绩 记 录 ， 所 以 过 滤 条 件 就 是 student.number=socre.number， 
整个 查询 语句 就 是 下 面 这 样 : 


mysql> SELECT * FROM student, Score WHERE student .number = score.number; 


+ 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 -一 -一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 ~ 一 = 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 二 
| number | name | major | number | subject | score | 
十 一 一 一 一 一 一 一 一 一 一 才 一 一 一 一 一 一 一 一 一 一 一 中 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 中 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| 20180101 | 张 三 | 软件 学 院 | 20180101 | MySQL 是 怎样 运行 的 | 78 | 
| 20180101 | 张 三 | 软件 学 院 | 20180101 | 深入 浅 出 MysoL | 88 | 
| 20180102 | 李 四 | 计算 机 科学 与 工程 | 20180102 | 深入 浅 出 MySQL | 98 | 
| 20180102 | 李 罗 | 计算 机 科学 与 工程 | 20180102 | MySOL 是 怎样 运行 的 | 100 | 
+ 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 -一 -一 一 一 一 -一 -一 -一 十 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 四 


4 rows in set (0.00 sec) 
字段 有 点 多 ， 我 们 少 查询 几 个 字段 : 


mysql> SELECT sl.number, sl.name, 5s2.subject, s2.score FROM Student AS sl, score RS s2 WHERE 
sl .number = Ss2.number; 


十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 一 一 一 一 一 一 一 一 十 ~ 一 一 一 一 一 一 十 
| number | name | subject | score | 
二 一 一 一 一 一 一 一 一 一 一 个 一 一 一 一 一 一 一 一 一 一 ~ i 十 一 一 一 一 一 一 一 十 
| 20180101 | 张 三 | MySQL 是 怎样 运行 的 | 78 | 
| 20180101 | 张 三 | 深入 浅 出 MySQL | 88 | 
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| 20180102 | 李 四 | Me PR | 98 | 
| 20180102 | 李 四 1 MySQL 是 怎样 运行 的 | 100 | 


+ 一 一 一 一 一 一 一 一 一 一 4- 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 -一 一 一 一 一 -一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 - 
4 rows in set (0.00 sec) | 


从 上 述 查 询 结果 中 可 以 看 到 ， 各 位 学 生 对 应 的 各 科 成 绩 都 被 查 出 来 了 。 可 是 有 个 问题 : 王 五 
同学 〈 也 就 是 学 号 为 20180103 的 同学 ) 因为 某 些 原因 没有 参加 考试 ， 所 以 在 score 表 中 没有 对 应 
的 成 绩 记 录 。 如 果 老师 想 查看 所 有 学 生 的 考试 成 绩 ， 即 使 是 缺 考 的 学 生 ， 他 们 的 成 绩 也 应 该 展示 
出 来 ， 但 是 到 目前 为 止 我 们 介绍 的 连接 查询 无 法 完成 这 样 的 需求 。 我 们 稍微 思考 一 下 这 个 需求 ， 
其 本 质 是 这 样 的 ， 针 对 驱动 表 中 的 荣 条 记录 ， 即 使 在 被 驱动 表 中 没有 找到 与 之 匹配 的 记录 ， 也 仍 
然 需要 把 该 驱动 表 记 录 加 入 到 结果 集 。 为 了 解决 这 个 问题 ， 就 有 了 内 连接 和 外 连接 的 概念 。 

。 对 于 内 连接 的 两 个 表 ， 若 驱动 表 中 的 记录 在 被 驱动 表 中 找 不 到 匹配 的 记录 ， 则 该 记录 

不 会 加 入 到 最 后 的 结果 集 。 前 面 提 到 的 连接 都 是 内 连接 。 
e 对 于 外 连接 的 两 个 表 ， 即 使 驱动 表 中 的 记录 在 被 驱动 表 中 没有 匹配 的 记录 ， 也 仍然 需 
要 加 入 到 结果 集 。 | 

在 MySQL 中 ， 根 据 选取 的 驱动 表 的 不 同 ， 外 连接 可 以 细 分 为 2 种 。 

rr 

e 右 外 连接 : 选取 右 侧 的 表 为 驱动 表 。 

可 这 样 仍然 存在 问题 : 即使 对 于 外 连接 来 说 ， 有 时 候 我 们 也 不 想 把 驱动 表 的 全 部 记录 都 加 
入 到 最 后 的 结果 集 。 这 就 犯难 了 ， 有 时 候 匹 配 失败 要 加 入 结果 集 ， 有 时 候 又 不 要 加 入 结果 集 。 
这 咋 办 ， 有 点 儿 犯 难 啊 。 把 过 滤 条 件 分 为 两 种 不 就 解决 这 个 问题 了 么 ， 所 以 过 滤 条 件 在 不 同 的 
地 方 是 有 不 同 的 语义 的 。 

e。 WHERE 子 句 中 的 过 滤 条 件 

WHERE 子 句 中 的 过 滤 条 件 就 是 我 们 平时 见 的 那 种 。 不 论 是 内 连接 还 是 外 连接 ， 凡 是 不 符 
合 WHERE 子 句 中 过 滤 条 件 的 记录 都 不 会 被 加 入 到 最 后 的 结果 集 。 

e ON 子 句 中 的 过 滤 条 件 | 


对 于 外 连接 的 驱动 表 中 的 记录 来 说 ， 如 果 无 法 在 被 驱动 表 中 找到 匹配 ON 子 句 中 过 滤 条 件 
的 记录 ， 那 么 该 驱动 表 记录 仍然 会 被 加 入 到 结果 集中 ， 对 应 的 被 驱动 表 记录 的 各 个 字段 使 用 
NULL 值 填充 。 
RN 
是 否 应 该 把 该 驱动 表 记 录 加 入 结果 集中 ”这 个 场景 提出 的 。 所 以 ， 如 果 把 ON 子 句 放 到 内 连接 中 ， 
MySQL 会 把 它 像 WHERE 子 句 一 样 对 待 。 也 就 是 说 ， 内 连接 中 的 WHERE 子 句 和 ON 子 句 是 等 价 的 。 








人 堪 外 连接 和 右 外 连接 分 别 简称 为 
ht 计生 的 “中 于 各 闪 本 
1. 左 (外 ) 连接 的 语法 


左 《〈《 外 ) 连接 的 语 法 还 是 失 简 单 的 比如 ， 我 们 要 把 tl 表 和 世 表 进行 左 外 连接 查询 ， 可 
以 这 么 写 : 


| 


| 
SELECT * FROM tl LEFT [OUTER] JOIN t2 ON 连接 条 件 [WHERE 普通 过 滤 条 件 ] ; 





Eg 
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其 中 ， 中 括号 里 的 OUTER 单词 是 可 以 省 略 的 。 对 于 LEFT JOIN 类 型 的 连接 来 说 ， 我 们 
把 放 在 左边 的 表 称 为 外 表 或 者 驱动 表 ， 放 在 右边 的 表 称 为 内 表 或 者 被 驱动 表 。 所 以 在 上 述 查 
询 语句 中 ，tl 就 是 外 表 或 者 驱动 表 ，t 就 是 内 表 或 者 被 驱动 表 。 需 要 注意 的 是 ， 对 于 左 〈 外 ) 
连接 和 右 〈 外 ) 连接 来 说 ， 必 须 使 用 ON 子 句 来 指出 连接 条 件 〈 内 连接 不 必要 包含 ON 子 句 )。 
了 解 了 左 〈 外 ) 连接 的 基本 语法 之 后 ， 再 次 回 到 前 面 的 那个 现实 问题 中 来 ， 看 看 怎样 写 查询 语 
句 才 能 把 所 有 学 生 〈 即 使 是 缺 考 的 学 生 ) 的 成 绩 信息 都 查询 出 来 ， 并 放 到 结果 集中 : 


mysql> SELECT sl.number, sl.name, s2.subject, s2.score FROM student RS sl LEFT JOIN Score RS 
Ss2 ON sl .number = s2.number; 


+ 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 + 一 一 一 一 一 一 一 + 
| number | name | subject | score | 
+ 一 一 一 一 一 一 一 一 一 -二 一 一 一 一 一 一 一 一 一 一 一 +~- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
| 20180101 | 张 三 | MYSQL 是 怎样 运行 的 | 78 | 
| 20180101 | 张 三 | 深入 小 出 MySQL | 88 | 
| 20180102 | 李 四 | 深入 浅 出 MySQL | 98 | 
| 20180102 | 李 四 | MYSQL 是 怎样 运行 的 1 009 | 
| 20180103 | 王 五 | NULL | NULL | 
+ 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 + 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一- 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 


5 rows in Set (0.04 sec) 


从 结果 集中 可 以 看 出 ， 虽 然 王 五 并 没有 对 应 的 成 绩 记录 ， 但 是 由 于 采用 的 连接 类 型 为 左 ( 外 ) 
连接 ， 所 以 仍然 把 他 放 到 了 结果 集中 ， 只 不 过 在 对 应 的 成 绩 记录 的 各 列 使 用 了 NULL 值 进行 填充 。 

2. 右 (外 ) 连接 的 语法 

右 〈 外 ) 连接 和 左 《〈 外 ) 连接 的 原理 是 一 样 的 ， 语 法 也 只 是 把 LEFT 换 成 RIGHT 而 已 : 


SELECT * FROM tl RIGHT [OUTER] JOIN t2 ON 连接 条 件 [WHERE 普通 过 滤 条 件 ] ; 
在 右 〈 外 ) 连接 中 ， 只 不 过 驱动 表 是 右边 的 表 ， 被 驱动 表 是 左边 的 表 ， 这 里 不 再 装 述 。 


3. 内 连接 的 语法 

内 连接 和 外 连接 的 根本 区 别 就 是 在 驱动 表 中 的 记录 不 符合 ON 子 句 中 的 连接 条 件 时 ， 内 连 
接 不 会 把 该 记录 加 入 到 最 后 的 结果 集中 。 我 们 最 开始 踪 功 的 那些 连接 查询 的 类 型 都 是 内 连接 。 
不 过 之 前 仅 提 到 了 一 种 最 简单 的 内 连接 语法 ， 就 是 直接 把 需要 连接 的 多 个 表 都 放 到 FROM 子 
句 后 面 。 其 实 MySQL 针对 内 连接 提供 了 好 多 不 同 的 语法 ， 我 们 以 tl 和 也 表 为 例 来 看 看 : 

SELECT * FROM tl [INNER | CROSS] JOIN t2 [ON 连接 条 件 ] [WHERE 普通 过 滤 条 件 ]; 

也 就 是 说 在 MySQL 中 ， 下 面 这 几 种 内 连接 的 写法 都 是 等 价 的 : 

© SELECT* FROM tl JOIN t2; 

© SELECT* FROM tl INNER JOIN t2:; 

@ SELECT* FROM tl]1 CROSS JOIN t2; 

上 面 这 些 写 法 等 价 于 直接 把 需要 连接 的 表 名 放 到 FROM 语句 之 后 ， 再 用 逗号 分 隔 开 的 写法 : 


SELECT * FROM 七 L， 七 2; 


尽管 我 们 介绍 了 很 多 种 内 连接 的 书写 方式 ， 不 过 熟悉 其 中 一 种 就 好 了 ， 我 个 人 比较 推荐 
以 INNER JOIN 的 形式 书写 内 连接 (因为 INNER JOIN 的 语义 很 明确 ， 可 以 与 LEFT JOIN 和 


i 
ec 
ii 
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RIGHT JOIN 轻松 地 区 分 开 )。 这 里 需要 注意 的 是 ， 由 于 在 内 连接 中 ON 子 句 和 WHERE 子 句 
是 等 价 的 ， 所 以 内 连接 中 不 要 求 强制 写 明 ON 子 句 。 

我 们 前 面 说 过 ， 连 接 就 是 把 各 个 表 中 的 记录 都 取出 来 依次 进行 匹配 ， 并 把 匹配 后 的 组 合 发 
送 给 客户 端 。 无 论 哪个 表 作 为 驱动 表 ， 两 表 连 接 产生 的 笛 卡 儿 积 肯定 是 一 样 的。 而 对 于 内 连接 
来 说 ， 凡 是 不 符合 ON 子 句 或 WHERE 子 句 中 条 件 的 记录 都 会 被 过 滤 掉 ， 也 就 相当 于 从 两 表 连 
接 的 笛 卡 儿 积 中 把 不 符合 过 滤 条 件 的 记录 给 踢 出 去 〈 这 里 只 是 打 个 比方 ， 并 不 是 在 真正 执行 查 
询 时 先 获取 笛 卡 儿 尔 积 )。 所 以 对 于 内 连接 来 说 ， 驱 动 表 和 被 驱动 表 是 可 以 互 换 的 ， 并 不 会 影 
响 最 后 的 查询 结果 。 但 是 对 于 外 连接 来 说 ， 由 于 驱动 表 中 的 记录 即使 在 被 驱动 表 中 找 不 到 符合 
ON 子 句 连接 条 件 的 记录 ， 也 会 被 加 入 到 结果 集 ， 此 时 驱动 表 和 被 驱动 表 的 关系 就 很 重要 了 。 


也 就 是 说 ， 左 外 连接 和 右 外 连接 的 驱动 表 和 被 驱动 表 不 能 轻易 互 换 。 


| 
4. 小 结 


上 面 说 了 这 么 多 ， 给 大 家 的 感觉 不 是 很 直观 ， 我 们 直接 把 表 tl 和 世 的 3 种 连接 方式 写 在 
一 起 ， 这 样 大 家 理解 起 来 就 很 容易 了 : 


mysql> SELECT * FROM tl INNER JOIN t2 ON ti.ml = t2.m2; 





+ 一 一 一 +-~ 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 + 
| ml | nl | m2 | n2 | 
+ 一 一 一 一 一 一 + 一 一 + 一 一 一 一 一 + 一 一 一 一 一 一 + 
| * | | 民 | 
| .人 | 本 | < 潮 | 时 ' | 
+ 一 一 一 一 一 +---- 一 一 +-—- 一 一 一 +——- 一 一 一 + 


2 rows in set (0.00 sec) 


mysql> SELECT * FROM tl LEFT JOIN t2 ON tl.ml = t2.m2; 


+ 一 一 一 一 一 +-- 一 一 一 +-- 一 一 一 一 + 一 一 一 一 一 一 
| ml | nl | m2 n2 | 
十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 
PE 
| 
| 1 1 a | NULL | NULL | 
+ 一 -一 -一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 二 一 一 一 一 -一 + 


3 rows in set (0.00 sec) 


mysql> SELECT * FROM tl RIGHT JOIN t2 ON tl.ml = t2.m2; 


Fe 让 上 + 一 一 一 = 一 一 十 一 = 一 一 一 一 + | 
| ml | nl | m2 n2 | 

+------ +~——-——— +~— 一 一 一 一 +-- 一 一 一 + | 
+ 
| | 吉隆 - | 3 | | 
| NULL | NULL | 4 | ad | | 
4+~—~— 一 = 一 4+—— 一 一 一 + 一 -一 一 一 一 +—- 一 一 一 一 + 


3 rows in set (0.00 sec) 
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基本 概念 是 为 了 真正 进入 本 章 主题 所 做 的 铺垫 。 真 正 的 重点 是 MySQL 采用 了 什么 样 的 算法 来 
进行 表 与 表 之 间 的 连接 。 了 解 了 这 个 之 后 ， 大 家 才能 明白 为 喻 有 的 连接 查询 的 运行 速度 快 如 内 
电 ， 有 的 却 慢 如 蜗牛 。 


11.2.1 庶 套 循环 连接 


前 文 说 过 ， 对 于 两 表 连 接 来 说 ， 驱 动 表 只 会 被 访问 一 遍 ， 但 被 驱动 表 却 要 被 访问 好 多 遍 ; 
具体 访问 几 遍 取决 于 对 驱动 表 执 行 单 表 查询 后 的 结果 集中 有 多 少 条 记录 。 对 于 内 连接 来 说 ， 选 
取 哪 个 表 为 驱动 表 都 没关系 ; 而 外 连接 的 驱动 表 是 固定 的 ， 也 就 是 说 左 〈 外 ) 连接 的 驱动 表 就 
是 左边 的 那个 表 ， 右 (外 ) 连接 的 驱动 表 就 是 右边 的 那个 表 。 前 文 已 经 介绍 过 tl 表 和 世 表 执 
行内 连接 碍 询 的 大 致 过 程 ， 我 们 现在 温习 一 下 。 
步骤 1. 选取 驱动 表 ， 使 用 与 驱动 表 相 关 的 过 滤 条 件 ， 选 取代 价 最 低 的 单 表 访问 方法 来 执行 
对 驱动 表 的 单 表 查询。 

步骤 2. 对 步骤 1 中 查询 驱动 表 得 到 的 结果 集中 的 每 一 条 记录 ， 都 分 别 到 被 驱动 表 中 查找 匹 
配 的 记录 。 

通用 的 两 表 连 接 过 程 如 图 11-4 所 示 。 


只 涉及 被 驱动 
表 的 过 泪 条 件 





最 佳 的 单 表 





涉及 两 表 的 过 滤 条 件 












只 涉及 被 驱动 
过 滤 条 件 


表 的 最 佳 的 单 表 


~ 访问 方法 





单 表 
-3 
图 11-4 通用 的 两 表 连 接 过 程 
如 果 有 3 个 表 进 行 连接 ， 那 么 步骤 2 中 得 到 的 结果 集 就 像 是 新 的 驱动 表 ， 然 后 第 3 个 表 就 


成 为 了 被 驱动 表 ， 然 后 重复 上 面 的 过 程 。 也 就 是 针对 步骤 2 中 得 到 的 结果 集中 的 每 一 条 记录 ， 
都 需要 到 t3 表 中 找 一 找 有 没有 匹配 的 记录 。 用 伪 代 码 来 表示 这 个 过 程 就 是 下 面 这 样 : 





for each row in tl satisfying conditions about tl 1 


for each row in t2 satisfying conditions about t2 1{ 


for each row lin t3 satisfying conditions about t3 1 


send to client; 
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| 
, | 
这 个 过 寺 程 就 像 是 一 个 嵌 套 的 短 环 ， 所 以 这 种 “驱动 表 只 访问 一 次 ,但 被 驱动 表 却 可 能 访问 


多 次 ， 且 访问 次 数 取决 于 对 驱动 表 执行 单 表 查 询 后 的 结果 集中 有 多 少 条 记录 ”的 连接 执行 方式 
称 为 散 套 循环 连接 (Nested-Loop 加 缠 ， 这 是 最 简单 也 是 最 笨拙 的 一 种 连接 查询 算法 。 


PT 





Dt 在 图 114 中 提 到 的 * 引 hw 1 区 一 个 扫 旬 和 
中 所 有 的 记录 都 先 查 出 来 放 到 菜 个 地 方 


11.2.2 ”使 用 索引 加 快 连接 速度 


我 们 知道 ， 在 嵌 套 循环 连接 中 可 能 需要 访问 多 次 被 驱动 表 。 如 果 访问 被 驱动 表 的 方式 都 是 
全 表 扫 描 ， 那 得 要 扫描 好 多 次 ! 但 是 别 忘 了 ， 查 询 世 表 其 实 就 相当 于 一 次 单 表 查 询 ， 我 们 可 
以 利用 索引 来 加 快 查询 速度 。 回 顾 最 开始 介绍 的 使 用 tl 表 和 忆 表 进行 内 连接 的 例子 : 


SELECT * FROM tl1, t2 WHERE tl.ml > 1 AND ti.ml = t2.m2 AND t2.n2 < 'd'; 


这 个 连接 查询 使 用 的 是 其 实 是 嵌 套 循环 连接 算法 。 把 上 面 这 个 查询 执行 过 程 拿 出 来 给 大 家 
看 一 下 ， 如 图 11-5 所 示 。 








tl.ml>1l 





11-5 连接 查询 


查询 驱动 表 tl 后 后 的 结果 集中 有 2 条 记录 ， 赚 套 循环 连接 算法 需要 查询 被 驱动 表 2 次 : 
® 当 tl.ml=2 时 ， 查 询 一 遍 世 表 ， 对 也 表 的 查询 语句 相当 于 : 


SELECT * FROM t+2 WHERE i = 2 AND Tt2.n2 < "dd"; 


e 当 tl.ml=3 时 ， 再 去 查询 一遍 世 表 ， 此 时 对 世 表 的 查询 语句 相当 于 : 


SELECT * FROM t2 WHERE t2.m2 = 3 AND t2.n2 < 'd'; 





-0-— 
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可 以 看 到 ， 原 来 的 tl.ml=t2.m2 这 个 涉及 两 个 表 的 过 滤 条 件 在 针对 也 表 进 行 得 询 时 ， 关 于 
tl 表 的 条 件 就 已 经 确定 了 ， 所 以 我 们 只 需要 单单 优化 针对 也 表 的 查询 即 可 。 上 述 两 个 对 也 表 
的 查询 语句 中 利用 到 的 是 m2 和 n2 列 ， 我 们 可 以 进行 如 下 尝试 。 
e 在 m2 列 上 建立 索引 。 因 为 针对 m2 列 的 条 件 是 等 值 查找 ， 比 如 也.m2=2、 世 .m2=3 等 ， 
所 以 可 能 使 用 到 ref 访问 方法 。 假 设 使 用 ref 访问 方法 来 执行 对 世 表 的 查询 ， 需 要 在 回 
表 之 后 再 判断 世 .n2<d 这 个 条 件 是 否 成 立 。 
这 里 有 一 个 比较 特殊 的 情况 ， 即 假设 m2 列 是 世 表 的 主键 ,或 者 是 不 允许 存储 NULL 值 
的 唯一 二 级 索引 列 ， 那 么 使 用 “t2.m2 = 常数 值 ” 这 样 的 条 件 从 世 表 中 查找 记录 时 ， 代 价 就 是 
常数 级 别 的 。 我 们 知道 ， 在 单 表 中 使 用 主键 值 或 者 唯一 二 级 索引 列 的 值 进行 等 值 查 找 的 方式 称 
为 const， 而 在 连接 查询 中 对 被 驱动 表 的 主键 或 者 不 允许 存储 NULL 值 的 唯一 二 级 索引 进行 等 
值 查找 使 用 的 访问 方法 就 称 为 eq_ref。 
e@ 在 n2 列 上 建立 索引 ， 涉 及 的 条 件 是 t2.n2 <'d， 可 能 用 到 range 访 问 方法 。 假 设 使 用 
range 访问 方法 对 也 表 进 行 查询 ， 需 要 在 回 表 之 后 再 判断 包含 m2 列 的 条 件 是 否 成 立 。 
假设 m2 和 了 2 列 上 都 存在 索引 ， 那 么 就 需要 从 这 两 个 里 面 挑 一 个 代价 更 低 的 索引 来 查询 也 表 。 
另外 ， 连 接 查询 的 查询 列表 和 过 滤 条 件 中 有 时 可 能 只 涉及 被 驱动 表 的 部 分 列 ， 而 这 些 列 都 
是 某 个 二 级 索引 的 一 部 分 ， 在 这 种 情况 下 即使 不 能 使 用 eq_ref、ref、ref or _null 或 者 range 等 
访问 方法 来 查询 被 驱动 表 ， 也 可 以 通过 扫描 全 部 二 级 索引 记录 〈 即 使 用 index 访问 方法 ) 来 查 
询 被 驱动 表 。 所 以 建议 最 好 不 要 使 用 * 作为 查询 列表 ， 而 是 把 真正 用 到 的 列 作为 查询 列表 。 


11.2.3 ”基于 块 的 谋 套 循环 连接 


现实 生活 中 的 表 可 不 像 贡 、 世 这样 只 有 3 条 记录 ， 成 千 上 万 条 记录 都 是 少 的 ， 几 百 万 、 几 
千 万 甚至 几 亿 条 记录 的 表 到 处 都 是 。 现 在 假设 我 们 不 能 使 用 索引 加 快 被 驱动 表 的 查询 过 程 ， 所 以 
对 于 驱动 表 结果 集中 的 每 一 条 记录 ， 都 需要 对 被 驱动 表 执 行 全 表 扫 描 。 这 样 在 对 被 驱动 表 进 行 全 
表 扫 描 时 ， 可 能 表 前 面 的 记录 还 在 内 存 中 ， 而 表 后 面 的 记录 还 在 磁盘 上 。 而 等 到 扫描 表 中 后 面 的 
记录 时 ， 有 可 能 由 于 内 存 不 足 ， 需 要 把 表 前 面 的 记录 从 内 存 中 释放 掉 给 现在 正在 扫描 的 记录 腾 地 
方 。 我 们 前 面 强调 过 ， 在 采用 幅 套 循环 连接 算法 的 两 表 连 接 过 程 中 ， 被 驱动 表 可 是 要 被 访问 好 多 
次 。 如 果 这 个 被 驱动 表 中 的 数据 特别 多 而 且 不 能 使 用 索引 进行 访问 ， 那 就 相当 于 要 从 磁盘 上 读 这 
个 表 好 多 次 ， 这 个 IO 的 代价 就 非常 大 了 。 所 以 我 们 得 想 办 法 ， 尽 量 减少 被 驱动 表 的 访问 次 数 。 

通过 上 面 的 叙述 我 们 了 解 到 ， 驱 动 表 结果 集中 有 多 少 条 记录 ， 就 可 能 把 被 驱动 表 从 磁盘 加 
载 到 内 存 中 多 少 次 。 我 们 是 否 可 以 在 把 被 驱动 表 中 的 记录 加 载 到 内 存 时 ， 一 次 性 地 与 驱动 表 中 
的 多 条 记录 进行 匹配 昵 ? 这 样 就 可 以 大 大 减少 重复 从 磁盘 上 加 载 被 驱动 表 的 代价 了 。 所 以 设计 
MySQL 的 大 叔 提 出 了 一 个 名 为 Join Buffer (连接 缓冲 区 ) 的 概念 。Join Buffer 就 是 在 执行 连 
接 查 询 前 申请 的 一 块 固定 大 小 的 内 存 。 先 把 若干 条 驱动 表 结 果 集 中 的 记录 装 在 这 个 Join Buffer 
中 ， 然 后 开始 扫描 被 驱动 表 ， 每 一 条 被 驱动 表 的 记录 一 次 性 地 与 Join Buffer 中 的 多 条 驱动 表 记 
录 进 行 匹 配 。 由 于 匹配 的 过 程 都 是 在 内 存 中 完成 的 ， 所 以 这 样 可 以 显著 减少 被 驱动 表 的 IO 代 
价 。 使 用 Join Buffer 的 过 程 如 图 11-6 所 示 。 

最 好 的 情况 是 Join Buffer 足够 大 ， 能 容纳 驱动 表 结 果 集 中 的 所 有 记录 ， 这 样 只 需要 访问 一 
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次 被 驱动 表 就 可 以 完成 连接 操作 了 。 设 计 MySQL 的 大 叔 把 这 种 加 入 了 Join Buffer 的 嵌 套 循环 | 
连接 算法 称 为 基于 块 的 嵌 套 循环 连接 (Block Nested-Loop Join) 算法 。 






批量 和 被 驱动 表 中 的 记录 做 匹配 


ce 


图 11-6 ”使 用 Join Buffer 的 过 程 示 意图 


这 个 Join Buffer 的 大 小 可 以 通过 启动 选项 或 者 系统 变量 join_buffer size 进行 配置 ， 默 认 大 
小 为 262,144 字 节 (也 就 是 256KB)， 最 小 可 以 设置 为 128 字 节 。 当 然 ， 在 我 们 优化 对 被 驱动 
表 的 查询 时 ， 最 好 是 为 被 驱动 表 加 上 高 效率 的 索引 。 如 果实 在 不 能 使 用 索引 ， 并 且 自 己 机 器 的 
内 存 也 比较 大 ， 则 可 以 尝试 调 大 join buffer_size 的 值 来 对 连接 查询 进行 优化 。 z 
另外 需要 注意 的 是 ，Join Buffer 中 并 不 会 存放 驱动 表 记 录 的 所 有 列 ， 只 有 查询 列表 中 的 列 
和 过 滤 条 件 中 的 列 才 会 被 放 到 Join Buffer 中 ， 所 以 这 也 再 次 提醒 我 们 ， 最 好 不 要 把 * 作为 查询 
列表 ， 只 需要 把 关心 的 列 放 到 查询 列表 就 好 了 ; 这 样 还 可 以 在 Join Buffer 中 放置 更 多 的 记录 。 





11.3 总结 

从 本 质 上 来 说 ， 连 接 就 是 把 各 个 表 中 的 记录 都 取出 来 依次 进行 匹配 ， 并 把 匹配 后 的 组 合 发 
送 给 客户 端 。 如 果 不 加 任何 过 滤 条 件 ， 产 生 的 结果 集 就 是 笛 卡 儿 积 。 

在 MySQL 中 ， 连 接 分 为 内 连接 和 外 连接 ， 其 中 外 连接 又 可 以 被 细 分 为 左 〈 外 ) 连接 和 右 
(外 ) 连接 。 内 连接 和 外 连接 的 根本 区 别 就 是 ， 在 驱动 表 中 的 记录 不 符合 ON 子 句 中 的 连接 条 
件 时 ， 内 连接 不 会 把 该 记录 加 入 到 最 后 的 结果 集中 ， 而 外 连接 会 。 

嵌 套 循环 连接 算法 是 指 驱动 表 只 访问 一 次 ， 但 被 驱动 表 却 可 能 会 访问 多 次 ， 访 问 次 数 取决 
于 对 驱动 表 执 行 单 表 查询 后 的 结果 集中 有 多 少 条 记录 。 大 致 过 程 如 下 。 

步骤 1. 选取 驱动 表 ， 使 用 与 驱动 表 相 关 的 过 滤 条 件 ， 选 取代 价 最 低 的 单 表 访 问 方法 来 执行 

对 驱动 表 的 单 表 查 询 。 
步骤 2， 对 步骤 1 中 查询 驱动 表 得 到 的 结果 集中 的 每 一 条 记录 ， 都 分 别 到 被 驱动 表 中 查找 匹 
配 的 记录 。 

由 于 被 驱动 表 可 能 会 访问 多 次 ， 因 此 可 以 为 被 驱动 表 建立 合适 的 索引 以 加 快 查询 速度 。 

如 果 被 驱动 表 非 常 大 ， 多 次 访问 被 驱动 表 可 能 导致 很 多 次 的 磁盘 1O， 此 时 可 以 使 用 基于 
块 的 钳 套 循环 连接 算法 来 缓解 由 此 造成 的 性 能 损耗 。 





ee 
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12.1 ”什么 是 成 本 


我 们 之 前 老 说 MySQL 在 执行 一 个 查询 时 可 以 有 不 同 的 执行 方案 。 它 会 选择 其 中 成 本 最 低 ， 
或 者 说 代价 最 低 的 那 种 方案 去 真正 地 执行 查询 。 不 过 我 们 之 前 对 成 本 的 描述 是 非常 模糊 的 ， 其 
实 一 条 查询 语句 在 MySQL 中 的 执行 成 本 是 由 两 个 方面 组 成 的 。 
e 1O 成 本 : 我 们 的 表 经 常 使 用 的 MyISAM、InnoDB 存储 引擎 都 是 将 数据 和 索引 存储 到 
磁盘 上 。 当 查询 表 中 的 记录 时 ， 和 需要 先 把 数据 或 者 索引 加 载 到 内 存 中 ， 然 后 再 进行 操 
作 。 这 个 从 磁盘 到 内 存 的 加 载 过 程 损耗 的 时 间 称 为 IO 成 本 。 

e CPU 成 本 : 读 取 记录 以 及 检测 记录 是 否 满足 对 应 的 搜索 条 件 、 对 结果 集 进 行 排序 等 这 
些 操作 损耗 的 时 间 称 为 CPU 成 本 。 

对 InnoDB 存储 引擎 来 说 ， 页 是 磁盘 和 内 存 之 间 进 行 交 互 的 基本 单位 。 设 计 MySQL 的 大 
叔 规定 : 读 取 一 个 页 面 花费 的 成 本 默认 是 1.0; 读 取 以 及 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 
本 默认 是 0.2。1.0、0.2 这 些 数字 称 为 成 本 常数 ， 这 两 个 成 本 常数 最 常用 到 ， 其 余 的 成 本 常数 
会 在 后 面 再 说 。 


洽 : 需要 注意 的 是 ， 在 读 取 记 录 时 ， 即使 不 需要 检测 记录 是 否 符合 搜索 条 件 ， 其 成 本 也 
人 小幅 十 | 此 作 02: 
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12.2.1 准备 工作 


为 了 故事 的 顺利 发 展 ， 我 们 还 得 把 之 前 用 到 的 single table 表 搬 出 来 。 为 了 避免 大 家 忘记 
这 个 表 的 模样 ， 这 里 再 给 大 家 抄 一 遍 : 


CREATE TABLE single table (I 
id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR (100), 
key2 INT, 
key3 VARCHAR(100), 
key partl VARCHAR(100), 
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key_part2 VARCHAR(100), 
key_part3 VARCHAR (100), 
common_field VARCHAR (100), 
PRIMARY KEY (id), 

KEY idx keyl (keyl) ， 
UNIQUE KEY uk_key2 (key2), 
KEY idx_key3 (key3), 


KEY idx_key part (key partil, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 


还 是 假设 这 个 表 中 有 10,000 条 记录 ， 除 记 列 外 其 余 的 列 都 插入 随机 值 。 下 边 正式 开始 我 
们 的 表演 。 


12.2.2 基于 成 本 的 优化 步 对 


在 真正 执行 一 条 单 表 查询 语句 之 前 ，MySQL 的 优化 器 会 找 出 所 有 可 以 用 来 执行 该 语句 的 
方案 ， 并 在 对 比 这 些 方案 之 后 找 出 成 本 最 低 的 方案 。 这 个 成 本 最 低 的 方案 就 是 所 谓 的 执行 计 
划 。 之 后 才 会 调用 存储 引擎 提供 的 接口 真正 地 执行 查询 。 这 个 过 程 总 结 一 下 就 是 下 面 这 样 。 

1. 根据 搜索 条 件 ， 找 出 所 有 可 能 使 用 的 索引 。 

2. 计算 全 表 扫描 的 代价 。 

3. 计算 使 用 不 同 索引 执行 查询 的 代价 。 

4. 对 比 各 种 执行 方案 的 代价 ， 找 出 成 本 最 低 的 那个 方案 。 

下 边 以 一 个 实例 来 分 析 一 下 这 些 步骤 。 单 表 查 询 语句 如 下 : 

SELECT * FROM single table WHERE 

keyl IN ('a', 'b', 'c') AND 
key2 > 10 AND key2 < 1000 AND 
key3 > key2 AND 


key_partl LIKE '‘'%hello%' AND 
common field = '123'，; 


乍 看 上 去 有 点 儿 复 杂 ， 我 们 逐步 进行 分 析 。 


1. 根据 搜索 条 件 ， 找 出 所 有 可 能 使 用 的 索引 
前 文 说 过 ， 对 于 B+ 树 索引 来 说 ， 只 要 索引 列 和 常数 使 用 =、<=>、IN、NOT IN、1IS NULL、 
NS NOT NULL、>、<、>=、<=、BETWEEN、!= (不 等 于 也 可 以 写成 二 ) 或 者 LIKE 操作 符 
连接 起 来 ， 就 会 产生 一 个 扫描 区 间 (用 LIKE 匹配 字符 串 前 缀 时 ， 也 会 产生 一 个 扫描 区 间 )。 
也 就 是 说 ， 这 些 搜索 条 件 都 可 能 使 用 到 索引 ， 设 计 MySQL 的 大 叔 把 一 个 查询 中 可 能 使 用 到 的 
索引 称 之 为 possible keys。 
我 们 分 析 一 下 上 面 的 查询 语句 中 涉及 的 几 个 搜索 条 件 。 
@ keyl IN (a','b','c'): 这 个 搜索 条 件 可 以 使 用 二 级 索 引 idx key1l 。 
。 key2>10AND key2<1000: 这 个 搜索 条 件 可 以 使 用 二 级 索引 uk key2。 
® key3>key2: 这 个 搜索 条 件 的 索引 列 由 于 没有 与 常数 进行 比较 ， 因此 不 能 产生 合适 的 扫 
描 区 间 。 


e key_partl LIKE '%hello%' : key_partl 通过 LIKE 操作 符 与 以 通配符 开头 的 字符 串 进行 
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比较 ， 不 能 产生 合适 的 扫描 区 间 。 
e@e common field='123' : 由 于 压根 儿 没 有 在 该 列 上 建立 索引 ， 所 以 不 会 用 到 索引 。 
综 上 所 述 ， 上 面 的 查询 语句 可 能 使 用 到 的 索引 (也 就 是 possible keys) 有 idx_keyl 和 uk_ 
key2 。 


2. 计算 全 表 扫 描 的 代价 

对 InnoDB 存储 引擎 来 说 ， 全 表 扫 描 的 意思 就 是 把 聚 簇 索 引 中 的 记录 都 依次 与 给 定 的 搜索 | 
条 件 进行 比较 ， 并 把 符合 搜索 条 件 的 记录 加 入 到 结果 集中 。 所 以 需要 将 聚 簇 索 引 对 应 的 页 面 加 
载 到 内 存 中 ， 然 后 再 检测 记录 是 否 符合 搜索 条 件 。 由 于 查询 成 本 = IO 成 本 + CPU 成 本 ， 所 以 
在 计算 全 表 扫 描 的 代价 时 需要 两 个 信息 : 

e 聚 簇 索引 占用 的 页 面 数 ; 

e@e 该 表 中 的 记录 数 。 

这 两 个 信息 从 哪里 来 呢 ? 设计 MySQL 的 大 叔 为 每 个 表 维 护 了 一 系列 的 统计 信息 。 关 于 这 
些 统计 信息 的 收集 方式 ， 将 会 在 下 一 章 详细 啼 归 。 现 在 先 看 一 下 怎么 查看 这 些 统计 信息 。 设 计 
MySQL 的 大 叔 提供 了 SHOW TABLE STATUS 语句 来 查看 表 的 统计 信息 。 如 果 要 看 某 个 指定 
表 的 统计 信息 ， 在 该 语句 后 添加 对 应 的 LIKE 语句 就 好 了 。 比 如 ， 我 们 要 查看 single table 表 
的 统计 信息 ， 可 以 这 么 写 : 


mysql> USE xiaohaizi; 
Database changed 


mysql> SHOW TABLE STATUS LIKE 'single table'\G 
EE 二 row 守 实 实 实 窒 讲 实 守 实 实 实 守 守 守 守 守 计 实 守 计 寺 守 实 轩 实 守 实 
Name: single table 
Engine: InnoDB 
Version: 10 
Row format: Dynamic 
Rows: 9693 
Avg_row length: 163 
Data length: 1589248 
Max data length: 0 
Index length: 2752512 
Data free: 4194304 
Auto increment: 10001 
Create time: 2018-12-10 13:37:23 
Update time: 2018-12-10 13:38:03 
Check time: NULL 
Collation: utf8 general ci 
Checksum: NULL 
Create_options : 
Comment: 
1 row in Set (0.01 sec) / 


虽然 出 现 了 很 多 统计 选项 ， 但 我 们 目前 只 关心 两 个 选项 。 

@ Rows : 表示 表 中 的 记录 条 数 。 对 于 使 用 MyISAM 存储 引擎 的 表 来 说 ， 该 值 是 准确 的 ; 
对 于 使 用 InnoDB 存储 引擎 的 表 来 说 ， 该 值 是 一 个 估计 值 。 从 查询 结果 中 也 可 以 看 出 ， 
由 于 single table 表 使 用 的 是 InnoDB 存储 引擎 ， 尽 管 表 实际 有 10,000 条 记录 ， 但 是 执 


由 





” 
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行 SHOW TABLE STATUS 语句 后 显示 的 Rows 值 是 9.693， 即 只 有 9,693 条 记录 。 
® Data_length : 表示 表 占 用 的 存储 空间 字 节 数 。 对 于 使 用 MyISAM 存储 引擎 的 表 来 说 ， 
该 值 就 是 数据 文件 的 大 小 ， 对 于 使 用 InnoDB 仓储 引擎 的 表 来 说 ， 该 值 就 相当 于 聚 艇 
索引 占用 的 存储 空间 大 小 ， 也 就 是 说 ， 可 以 按照 下 面 的 公式 来 计算 该 值 的 大 小 ; 
Data_length = 聚 艇 索引 的 页 面 数量 x 每 个 页 面 的 大 小 
我 们 的 single_table 表 使 用 默认 的 16KB 页 面 大 小 ， 而 上 面 查 询 结 果 中 显示 Data_length 的 
值 是 1,589,248， 所 以 可 以 反 向 推导 出 聚 簇 索 引 的 页 面 数量 . 
案 奥 索引 的 页 面 数量 = 1,589,248 = 16 = 1024 = 97 
现在 已 经 得 到 了 聚 徐 索引 占用 的 页 面 数 量 以 及 该 表 记 录 数 的 估计 值 ， 接 下 来 就 可 以 计算 全 
表 扫 描 成 本 了 。 但 是 ， 设 计 MySQL 的 大 叔 在 真正 计算 成 本 时 会 进行 一 些微 调 ， 这 些微 调 的 值 
十 直接 硬 编码 到 代码 中 的 。 由 于 没有 注释 ， 我 也 不 知道 这 些微 调 值 是 个 啥 意思 。 但 是 由 于 这 些 
微调 的 值 十 分 小 ， 并 不 影响 我 们 分 析 ， 所 以 也 就 没有 必要 在 这 些微 调 值 上 纠结 了 。 现 在 可 以 看 
一 下 全 表 扫 描 成 本 的 计算 过 程 。 
@ JIO 成本: 97x 1.0+1.1=981 
97 指 的 是 聚 簇 索引 占用 的 页 面 数 ，1.0 指 的 是 加 载 一 个 页 面 的 成 本 常数 ， 后 边 的 1.1 是 
一 个 微调 值 ， 我 们 不 用 在 意 。 
e CPU 成 本 : 9,693 x 0.2+1.0= 19396 
9,693 指 的 是 统计 数据 中 表 的 记录 数 ， 对 于 InnoDB 存储 引擎 来 说 这 是 一 个 估计 值 ; 0.2 
指 的 是 访问 一 条 记录 所 需 的 成 本 常数 ， 后 边 的 1.0 是 一 个 微调 值 ， 我 们 不 用 在 意 。 
e 忆 成 本 : 98.1 + 1939.6 = 2037.7 
儒 上 所 述 ， 针 对 single_table 的 全 表 扫 描 所 需 的 总 成 本 就 是 2 037 7。 


前 文 说 过 ， 完 整 的 用 户 记录 其 实 都 存储 在 聚 禾 索引 对 应 鲍 官 1 衬 的 叶子 节点 中， 斌 
4。 我们 只 要 通过 根 节点 获得 了 最 左边 的 叶 于 节点 ， 计 可 以 沿 着 时 于 节点 组 成 的 双向 链 
的: 到 把 所 有 记录 都 查看 一 这， 也 就 是 说 在 全 表 扫 描 的 过 程 中 ， 其 实 有 的 B+ 树 内 节点 是 不 
小 贴 十 ”需要 访问 的 ， 但 是 设计 SQL 的 大 权 在 计算 全 表 扫 描 成 本 时 ， 直 接 使 用 聚 獒 索引 占用 
的 页 面 数 作为 计算 IO 成 本 的 依据 ， 并 没有 区 分 内 节点 和 叶子 节点 。 这 有 点 儿 “ 简 单 碍 

烘 ”， 大 家 注意 一 下 就 好 了 . ER ! : 


3. 计算 使 用 不 同 索引 执行 查询 的 代价 

企 前 面 的 “根据 搜索 条 件 ， 找 出 所 有 可 能 使 用 的 索引 ”小 节 中 得 知 ， 前 述 查询 可 能 使 用 到 
OX_keyl 和 uk_key2 这 两 个 索引 ， 我 们 需要 分 析 单 独 使 用 这 些 索引 执行 查询 的 成 本 ， 最 后 还 
安 分 析 是 否 可 能 使 用 到 索引 合并 。 这 里 需要 注意 的 一 点 是 ，MySQL 查询 优化 器 先 分 析 使 用 唯 
“一 级 索引 的 成 本 ， 再 分 析 使 用 普通 索引 的 成 本 ， 所 以 我 们 也 先 分 析 uk_key2 的 成 本 ， 然 后 再 
看 使 用 Idx_ keyl 的 成 本 。 

(1) 使 用 uk _key2 执行 查询 的 成 本 分 析 

uk _key2 对 应 的 搜索 条 件 是 key2>10 AND key2<1000， 也 就 是 说 对 应 的 扫描 区 间 就 是 (10, 
1000)。 使 用 uk_key2 执行 查询 的 示意 图 如 图 12-1 所 示 。 
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图 12-1 使 用 uk key2 执行 查询 


对 于 使 用 二 级 索引 + 回 表 方式 执行 的 查询 ， 设 计 MySQL 的 大 叔 在 计算 这 种 查询 的 成 本 时 ， 
依赖 于 两 方面 的 数据 : 扫描 区 间 数 量 和 需要 回 表 的 记录 数 。 
e 扫描 区 间 数 量 
无 论 某 个 扫描 区 间 的 二 级 索引 到 底 占 用 了 多 少 页 面 ， 查 询 优 化 器 粗暴 地 认为 读 取 索 引 的 
一 个 扫描 区 间 的 IO 成 本 与 读 取 一 个 页 面 的 IO 成 本 是 相同 的 。 本 例 中 使 用 uk _ key2 的 扫描 
区 间 只 有 一 个 : (10, 1000)， 所 以 相当 于 访问 这 个 扫描 区 间 的 二 级 索引 所 付出 的 IO 成 本 就 是 
1 x 1.0= 1.0。 
e@e 需要 回 表 的 记录 数 
查询 优化 器 需要 计算 二 级 索引 的 某 个 扫描 区 间 到 底 包含 多 少 条 记录 ， 对 于 本 例 来 说 就 是 要 
计算 uk key2 在 (10, 1000) 扫描 区 间 中 包含 多 少 二 级 索引 记录 。 计 算 过 程 是 这 样 的 。 
步骤 1。 先 根据 key2>10 条 件 访 问 uk key2 对 应 的 B+ 树 索 引 ， 找 到 满足 key2>10 条 件 的 
第 一 条 记录 (我 们 把 这 条 记录 称 为 区 间 最 左 记 录 )。 前 文 说 过 ， 在 B+ 树 中 定位 
一 条 记录 的 过 程 是 贼 快 的 ， 是 常数 级 别 的 ， 所 以 这 个 过 程 的 性 能 消耗 可 以 忽略 
不 计 。 
步骤 2. 然后 再 根据 key2<1000 条 件 继续 从 uk key2 对 应 的 B+ 树 索 引 中 找 出 最 后 一 条 满足 
这 个 条 件 的 记录 (我 们 把 这 条 记录 称 为 区 间 最 右 记 录 )。 这 个 过 程 的 性 能 消耗 也 可 
以 忽略 不 计 。 
步骤 3. 如 果 区 间 最 左 记 录 和 区 间 最 右 记 录 相 隔 不 太 远 〈 在 MySQL 5.7.22 版 本 中 ， 只 要 相 
隔 不 大 于 10 个 页 面 即 可 )， 就 可 以 精确 统计 出 满足 key2>10 AND key2 


<1000 条 件 的 
二 级 索引 记录 的 条 数 。 
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. 


i 别 扎 了 数据 页 有 一 个 Page Header 部 分 . Page Header 中 有 一 个 各 为 PAGE N-RECS 

加、 的 属性 ， 该 属性 代表 了 该 页 面 中 目前 有 多 少 条 记录 所 以 ， 如 果 区 间 最 左 记录 和 区 间 最 、 

: 小 贴 十 ”让 记录 所 在 的 页 面相 隔 不 太 远 ， 我 们 可 以 直接 遍历 这 些 页 面 ， 把 这 些 页 面 中 的 PAGE 
N_RECS 属性 值 加 起 来 就 好 了 . 小 2 安 


- 


. 
、 


: 否则 只 沿 着 区 间 最 左 记录 向 右 读 10 个 页 面 ， 计算 每 个 页 面 平 均 包含 多 少 记 录 ， 然 后 用 这 
个 二 均值 乘 以 区 间 最 左 记录 和 区 间 最 右 记录 之 间 的 页 面 数量 就 可 以 了 。 那么 问题 又 来 了 : 怎么 

信 计 区 间 最 左 记 录 和 区 间 最 右 记 录 之 间 有 多 少 个 页 面 呢 ? 要 解决 这 个 问题 ， 还 得 回 到 B+ 树 索 
| 引 的 结构 中 来 ， 如 图 12-2 所 示 。 





] 12-2 B+ 树 索引 结构 


在 图 12-2 中 ， 假 设 区 间 最 左 记录 在 页 b 中 ， 区 间 最 右 记 录 在 页 中， 那么 要 计算 区 间 最 
左 记录 和 区 间 最 右 记录 之 间 的 页 面 数量 ， 就 相当 于 计算 页 b 和 页 c 之 间 有 多 少 页 面 。 而 每 一 条 
目录 项 记录 都 对 应 一 个 数据 页 ， 所 以 计算 页 b 和 页 c 之 间 有 多 少 页 面 就 相当 于 计算 它们 的 父 节 
”点 (也 就 是 页 a) 中 对 应 的 目录 项 记录 之 间隔 着 几 条 记录 。 在 一 个 页 面 中 统计 两 条 记录 之 间 有 
。 几 条 记录 的 成 本 就 相当 低 了 。 
不 过 还 有 问题 ， 如 果 页 b 和 页 e 之 间 的 页 面 实在 太 多 ， 以 至 于 页 b 和 页 e 对 应 的 目录 项 记 
。 。 录 都 不 在 一 个 页 面 中 该 咋 办 ? 继续 递归 啊 ， 也 就 是 再 统计 页 b 和 页 c 对 应 的 目录 项 记录 所 在 页 
之 间 有 多 少 个 页 面 。 我 们 之 前 说 过 ， 一 个 B+ 树 能 有 4 层 就 已 经 比较 高 了 ， 所 以 这 个 统计 过 程 
也 不 是 很 消耗 性 能 ， 
知道 了 如 何 统计 二 级 索引 某 个 扫描 区 间 的 记录 数 之 后 ， 就 需要 回 到 现实 问题 中 来 。 根 据 上 
述 算法 测 得 uk key2 在 区 间 〈10, 1000) 中 大 约 有 95 条 记录 。 读 取 这 95 条 二 级 索引 记录 需要 
付出 的 CPU 成 本 就 是 95 x 0.2 + 0.01 = 19.01。 其 中 95 是 需要 读 取 的 二 级 索引 的 记录 条 数 ，0 ? 
是 读 取 一 条 记录 的 成 本 常数 ，0.01 是 微调 值 。 
在 通过 二 级 索引 获取 到 记录 之 后 ， 还 需要 干 两 件 事 儿 


TS 
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e 根据 这 些 记 录 的 主键 值 到 聚 艇 索引 中 执行 回 表 操作 。 

这 里 需要 大 家 使 劲 睁 大 自己 的 眼睛 看 仔细 了， 设计 MySQL 的 大 叔 在 评估 回 表 操作 的 IO 
成 本 时 依旧 很 豪放 : 他 们 认为 每 次 回 表 操 作 都 相当 于 访问 一 个 页 面 ， 也 就 是 说 二 级 索引 扫描 区 
间 中 有 多 少 记 录 ， 就 需要 进行 多 少 次 回 表 操 作 ， 也 就 是 需要 进行 多 少 次 页 面 JO。 前 面 在 使 用 
uk key2 二 级 索引 执行 查询 时 ， 预 计 有 95 条 二 级 索引 记录 需要 进行 回 表 操作 ， 所 以 回 表 操 作 
带 来 的 IO 成 本 就 是 95 x 1.0 = 95.0。 其 中 95 是 预计 的 二 级 索引 记录 数 ，1.0 是 读 取 一 个 页 面 
的 IO 成 本 常数 。 

e 回 表 操作 后 得 到 完整 的 用 户 记录 ， 然 后 再 检测 其 他 搜索 条 件 是 否 成 立 。 

回 表 操 作 的 本 质 就 是 通过 二 级 索引 记录 的 主键 值 到 育 簇 索引 中 找到 完整 的 用 户 记录 ， 然 后 
再 检测 除 key2>10 AND key2<1000 这 个 搜索 条 件 以 外 的 其 他 搜索 条 件 是 否 成 立 。 因 为 我 们 通 
过 扫描 区 间 获 取 到 的 二 级 索引 记录 共有 95 条 ， 这 也 就 对 应 着 聚 簇 索 引 中 95 条 完整 的 用 户 记 录 。 
读 取 并 检测 这 些 完整 的 用 户 记 录 是 否 符合 其 余 的 搜索 条 件 的 CPU 成 本 为 95 x 0.2 = 19.0。 其 中 
95 是 待 检测 记录 的 条 数 ，0.2 是 检测 一 条 记录 是 否 符合 给 定 搜索 条 件 的 成 本 常数 。 

所 以 本 例 中 使 用 uk key2 执行 查询 的 成 本 就 如 下 所 示 。 

e I/O 成 本 : 1.0+ 95 x 1.0 = 96.0 (扫描 区 间 的 数量 + 预 估 的 二 级 索引 记录 条 数 )。 

e@ CPU 成 本 : 95 x 0.2 + 0.01 + 95 x 0.2 = 38.01 〈 读 取 二 级 索引 记录 的 成 本 + 读 取 并 检测 

回 表 操作 后 聚 簇 索引 记录 的 成 本 )。 
综 上 所 述 ， 使 用 uk key2 执行 查询 的 总 成 本 就 是 96.0+ 38.01 = 134.01。 


需要 注意 的 一 点 是 ;大 家 在 阅读 MySQL 5.7.22 版 本 的 源 代码 时 ， :会 发 现 设计 
MySQL 的 大 权 最 初 在 比较 使 用 uk key2 索引 与 使 用 全 表 扫 描 的 成 本 时 ， 在 计算 使 用 uk 
、，， “key2 索引 的 成 本 的 过 程 中 并 没有 把 读 取 并 检测 回 表 操作 后 聚 铬 过 引 记录 的 CPU 成 本 包 
全 : 含 在 内 (也 就 是 95 x 0.2). 按照 这 样 的 算法 比较 完成 本 之 后 ， 如果 使 用 Uk key2 索引 的 
,i 由 十 成 本 比较 低 ， 最 终 会 再 算 一 这 使 用 uk_key2 索引 的 成 本 ， 此 时 会 把 读 取 并 检测 回 表 操 作 
后 聚 狂 索引 记录 的 CPU 成 本 包含 在 内 - 后 面 在 分 析 使 用 idx _keyl 的 查询 成 本 时 ， 也 有 
这 个 问题 。 由 于 担 ， 把 里 面 的 各 种 繁 珊 步 辽 者 写 人 至 影响 阅读 体验 ， 也 以 采用 了 
更 容易 理解 的 成 本 计算 方式 来 讲解 . 下 


(2) 使 用 idx keyl 执行 查询 的 成 本 分 析 

idx keyl 对 应 的 搜索 条 件 是 keyl IN (a', 'b', 'c")， 也 就 是 说 相当 于 3 个 单 点 扫描 区 间 : 

© [a','al; 

@ [b','b":; 

@ [c,'c]。 

使 用 idx keyl 执行 查询 的 示意 图 如 图 12-3 所 示 。 

与 使 用 uk key2 的 情况 类 似 ， 我 们 也 需要 计算 使 用 idx_keyl 时 需要 访问 的 扫描 区 间 的 数 
量 以 及 需要 回 表 的 记录 数 。 

e 扫描 区 间 的 数量 

在 使 用 idx_ keyl 执行 查询 时 ， 很 显然 有 3 个 单 点 扫描 区 间 ， 所 以 访问 这 3 个 扫描 区 间 的 
二 级 索引 付出 的 IO 成 本 就 是 3 x 1.0=3.0。 
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12-3 ”使 用 idx keyl 执行 查询 
e 需要 回 表 的 记录 数 
由 于 在 使 用 idx_keyl 时 存在 3 个 单 点 扫描 区 间 ， 所 以 每 个 单 点 扫描 区 间 都 需要 查找 一 遍 
对 应 的 二 级 索引 记录 数 。 
se 得 找 单 点 扫描 区 间 [a', 1 对 应 的 二 级 索引 记录 数 : 计算 单 点 扫描 区 间 对 应 的 二 级 索引 
记录 数 与 计算 范围 扫描 区 间 对 应 的 二 级 索引 记录 数 是 一 样 的 ， 都 是 先 找 到 区 间 最 左 记 
杂 和 区 间 最 右 记录 ， 然后 再 计算 它们 之 间 的 记录 数 。 具体 算法 已 经 在 前 面 啼 嘱 过 了 ， 
就 不 更 述 了 。 最 后 计算 得 到 的 单 点 扫描 区 间 [a, a] 对 应 的 二 级 索引 记录 数 是 35。 
qm 坦 找 单 点 扫描 区 间 [bb] 对 应 的 二 级 索引 记录 数 ， 与 上 同 理 ， 计算 得 到 的 本 单 点 
扫描 区 间 对 应 的 记录 数 是 44。 
@ 得 找 单 点 扫描 区 间 ['c', cq] 对 应 的 二 级 索引 记录 数 : 与 上 同 理 ， 计算 得 到 的 本 单 点 
扫描 区 间 对 应 的 记录 数 是 39。 
所 以 ， 这 3 个 单 点 扫描 区 间 总 具 需 要 回 表 的 记录 数 就 是 35 + 44 + 39 = 118。 读 取 这 些 二 乡 
索引 记录 的 CPU 成 本 就 是 118 x 02 +0.01= 23 61 
在 得 到 总 共 需 要 回 表 的 记录 数 之 后， 还 要 考虑 下 述 事项 。 
“ 很 据 这 些 记录 中 的 主键 值 到 聚 簇 索 引 中 执行 回 表 操 作 ， 所 需 的 IO 成 本 就 是 118x10=1180。 


e 针对 回 表 操 作 后 读 取 到 的 完整 用 户 记录 ， 比较 其 他 搜索 条 件 是 否 成 立 。 这 一 步骤 对 应 
的 CPU 成 本 就 是 118 x 0.2 = 23.6。 


所 以 本 例 中 使 用 idx keyl 执行 查询 的 成 本 如 下 所 示 。 
e LIO 成 本 : 3.0+118x1.0=1210 (扫描 区 间 的 数量 十 预 估 的 二 级 索引 记录 条 数 )、 
e CPU 成 本 : 118 x 0.2 + 0.01+ 118 x 0.2=4721] ( 读 取 二 级 索引 记录 的 成 本 十 读 取 并 检 
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测 回 表 操 作 后 聚 簇 索 引 记 录 的 成 本 )。 
综 上 所 述 ， 使 用 idx keyl 执行 查询 的 总 成 本 就 是 121.0 + 47.21 = 168.21。 
(3) 是 否 有 可 能 使 用 索引 合并 (Index Merge) 
本 例 中 有 关 keyl 和 key2 的 搜索 条 件 是 使 用 AND 操作 符 连 接 起 来 的 ， 而 对 于 idx_keyl 和 
uk key2 都 是 范围 查询 。 也 就 是 说 ， 查 找到 的 二 级 索引 记录 并 不 是 按照 主键 值 进 行 排序 的 ， 不 
满足 使 用 Intersection 合并 的 条 件 ， 所 以 并 不 会 使 用 索引 合并 。 


各 和 pC lw PY RY™ (Of Ge 


泣 : MysQr 吉 询 优化 吕 计 和 1 人 并 所 以 过时 也 吉 丰 展开 | 
中 了 。 站 
小 贴 十 “和 生生 ee 


4. 对 比 各 种 执行 方案 的 代价 ， 找 出 成 本 最 低 的 那个 方案 

下 面 把 本 例 查询 的 各 种 可 执行 方案 以 及 它们 对 应 的 成 本 列 出 来 。 
e 全 表 扫 描 的 成 本 : 2037.7。 

@ 使 用 uk key2 的 成 本 : 134.01。 


再 一 次 强调 ; 为 了 提升 大 家 的 阅读 体验 前文 的 成 本 计算 方 式 其 实 与 MySQL 

人 7 2 St 的 成 本 计算 方式 稍 有 不 同 ， 但 是 核心 思路 没 变 ， 才 们 各 入 玫 的 本 加 传 间 二 光 
好 了 = 对 于 自己 阅读 代码 的 读者 ， 就 需要 更 深层 次 地 了 解 更 多 细节 了 2 证 

另外 ， 不 论 是 采用 idx keyl 还 是 uk key2 执行 查询 ， 它们 对 应 的 都 是 range 访问 方 

| 法 在 使 用 Tange 访问 方法 执行 查询 时 ， 扫 描 区 间 中 包含 多 少 条 记录 ， 优化 器 就 认为 需 

@: 要 进行 多 少 次 回 表 操 作 ， 也 就 相当 于 需要 进行 多 少 次 页 面 /O. 不 过 对 于 Tef 访 问 方法 来 

小 由 十。 说 ;设计 InnoDB 的 大 权 在 计算 因 回 表 操作 带 来 的 110 成 本 时 设置 了 天 花 板 ， 也 就 是 ref 

访问 方法 因 园 表 操作 带 来 的 LO 成 本 最 多 不 能 超过 相当 于 访问 全 表 记 录 数 的 1/10 个 页 面 

| 的 JJO 成 本 或 者 全 表 扫描 的 JJO 成 本 的 3 倍 . 之 所 以 设置 这 样 的 天 花 板 二 我 觉得 是 因为 

在 使 用 Tef 访问 方法 时 ， 需要 扫描 的 三 级 索 引 记录 的 id 值 离 得 更 近 ， 一 次 回 表 操作 可 能 

将 多 条 需要 访问 的 聚 从 过 引 记录 都 从 磁盘 加 载 到 这 内 存 - 也 就 是 说 ， 即使 在 range 访问 


e@e 使 用 idx keyl 的 成 本 : 168.21 
很 显然 ， 使 用 uk key2 的 成 本 最 低 ， 所 以 当然 选择 uk key2 来 执行 查询 。 
方法 中 与 在 TEf 访 问 方法 中 需要 扫描 的 记录 数 相同 ， Tef 访 问 方法 也 更 有 优势 


SELECT * FROM single table WHERE keyl IN ('aal', 'aa2', 'aa3', ... ， '222'); 


很 显然 ， 这 个 查询 可 能 使 用 到 的 索引 就 是 idx_key1。 由 于 这 个 索引 并 不 是 唯一 二 级 索引 ， 
所 以 并 不 能 确定 一 个 单 点 扫描 区 间 内 对 应 的 二 级 索引 记录 的 条 数 有 多 少 ， 需 要 我 们 去 算 一 下 。 


12.2.3 ”基于 索引 统计 数据 的 成 本 计算 
有 时 在 使 用 索引 执行 查询 时 会 有 许多 单 点 扫描 区 间 ， 使 用 IN 语句 就 很 容易 产生 非常 多 
单 点 扫描 区 间 。 比 如 下 面 这 个 查询 (下 面 查询 语句 中 的 … 表示 还 有 很 多 参数 ): 
计算 方式 已 经 在 前 文 介绍 过 了 ， 就 是 先 获取 索引 对 应 的 B+ 树 的 区 间 最 左 记 录 和 区 间 最 右 记录 ， 


| 12.2， 单 表 查 询 的 成 本 。 199 





然后 再 计算 这 两 条 记录 之 间 有 多 少 记录 (记录 条 数 少 的 时 候 可 以 做 到 精确 计算 ， 记 录 条 数 多 的 
时 候 只 能 估算 )。 设 计 MySQL 的 大 叔 把 这 种 通过 直接 访问 索引 对 应 的 B+ 树 来 计算 某 个 扫描 区 
则 内 对 应 的 索引 记录 条 数 的 方式 称 为 index dive。 


$e 


四 dive 直译 为 “水 | 或 者 “俯首 A A 






行 计划 生成 阶段， 人 重地 访问 站 站 有 全 2 名 


有 零星 几 个 单 点 扫描 区 间 的 话 ， 使 用 index dive 来 计算 这 些 单 点 扫描 区 间 对 应 的 记录 数 也 
不 是 什么 问题 。 但 是 架 不 住 有 人 人 锦 足 了 劲 往 IN 语句 里 塞 东西 呀 ， 我 就 见 过 有 的 IN 语句 中 有 
20,000 个 参数 。 如 果 这 20,000 个 参数 的 值 都 不 一 样 ， 也 就 对 应 着 20,000 个 单 点 扫描 区 间 。 这 就 
意味 着 MySQL 的 优化 器 为 了 计算 这 些 单 点 扫描 区 间 对 应 的 索引 记录 条 数 ， 要 进行 20,000 次 
index dive 操作 。 由 此 带 来 的 性 能 损耗 可 就 大 了 ， 搞 不 好 计算 这 些 单 点 扫描 区 间 对 应 的 索引 记 
录 条 数 的 成 本 比 直接 全 表 扫描 的 成 本 都 大 。 设 计 MySQL 的 大 叔 当然 也 考虑 到 了 这 种 情况 ， 所 


以 提供 了 一 个 系统 变量 eq_range| index_dive limit。 我 们 看 一 下 这 个 系统 变量 在 MySQL 5.7.22 
中 的 默认 值 : | 


mysql> SHOW VARIABLES LIKE '%dives®'; 

+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
| Variable name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 


| eq_range index dive limit I | 
二 mo 


1 row in set (0.08 sec) 


也 就 是 说 ， 如 果 通 过 IN 语句 生成 的 单 点 扫描 区 间 的 数量 小 于 200 个 ， 将 使 用 index dive 
来 计算 各 个 单 点 扫描 区 间 对 应 的 记录 条 数 ， 如 果 大 于 或 等 于 200 个 ， 就 不 能 使 用 index dive 了 ， 
而 是 要 使 用 索引 统计 数据 (index statistics) 来 进行 估算 。 怎 么 进行 估算 呢 ? 请 继续 往 下 看 。 

像 会 为 每 个 表 维护 一 份 统计 数据 一 样 ，MySQL 也 会 为 表 中 的 每 一 个 索引 维护 一 份 统计 数 
据 。 要 查看 某 个 表 中 索引 的 统计 数据 ， 可 以 使 用 “SHOW INDEX FROM 表 名 ”的 语法 。 比 如 
我 们 要 查看 表 single table 各 个 索引 的 统计 数据 ， 可 以 这 么 写 : 


mysql> SHOW TINEX FROM single table; 


儿 一 一 一 





Da cc nm De ne 
| Table | Non uniqoe | Key rame | Seq in isdex | Colim pame | Collation | Cardinality | Sub part | Packed | Null | Index type | Comment | Index corment | 
| single table | 0 1 了 Pest | 1 | 雪 | I 9693 | WL|wL 1 | Erer | | | 
| single table | 0 | uk key2 | | 1 1 wey2 iA | 9693 | MLL | NOLL | YES | BTREE | I I 
| single table | 1 1 idx keyi | 1 | xeyl IX | 968 1 WiL | NEL | YES | TREE | | | 
| single table | 1 1 idxkey3 | 1 | key3 | | 7991 WL | NULL | YEs | BTREE | | | 
| single table | 1 | idx key part | 1 | key partl IA I 3673 | WLL | WAIL | YES | STREE | | | 
| single table | 1 | idx key part | | 21 key part2 |X | 9999 | NOL | MAL | YES | Bre | | | 
| single table | 1 | ddx key part | 3 1 keypart3 A | i0000 | Wilb | WiL | YES | BTREE | | | 





7 xowa in set (0.D sec) 


可 以 看 到 ，SHOW INDEX i 向 的 输出 结果 中 的 一 一 条 记录 就 代表 某 个 索引 中 的 一 个 列 。 每 
个 列 都 有 多 个 属性 ， 我 们 看 一 下 输出 结果 中 的 各 个 属性 都 代表 什么 意思 ( 见 表 12-1)。 
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表 12-1 列 属性 名 及 其 含义 


属性 名 描述 
Table 该 列 所 属 索 引 所 在 的 表 的 名 称 
Non uniaue 该 列 所 属 索 引 是 否 是 唯一 索引 。 对 于 素 簇 索引 和 唯一 一 级 索引 来 说 ， Non_unique 的 值 为 
可 0; 对 于 普通 二 级 索引 来 说 ，Non_unique 的 值 为 1 
Key name 该 列 所 属 索 引 的 名 称 。 如 果 是 聚 簇 索引 的 话 ，Key_name 为 PRIAMRY 
i 该 列 在 索引 包含 的 列 中 的 位 置 ， 从 1 开始 计数 。 比 如 对 于 联合 索引 idx_key_part 来 说 ， 
Seq in index 


Column name 


Collation 


key partl、key part2 和 key_part3 对 应 的 位 置 分 别 是 1、2、3 

该 列 的 名 称 

该 列 中 的 值 是 按照 哪 种 排序 方式 存放 的 。Collation 为 A 时 代表 升序 存放 ; Collation 为 
NULL 时 代表 不 排序 

该 列 中 不 重复 值 的 数量 。 对 于 联合 索引 来 说 ，Cardinality 表示 从 索引 列 的 第 一 个 列 开 始 ， 到 
本 列 为 止 的 列 组 合 不 重复 的 数量 。 比 如 对 于 联合 索引 idx key part 来 说 ，key part2 列 的 


CR Cardinality 属性 代表 key partl 、keypart2 的 组 合 不 重复 的 数量 ，key part3 列 的 Cardinality 属性 
代表 key partl、keypar2、key part3 的 组 合 不 重复 的 数量 。 后 边 我 们 会 重点 看 这 个 属性 的 

pp 对 于 存储 字符 串 或 者 字 节 串 的 列 来 说 ， 有 时 只 想 对 这 些 串 的 前 n 个 字符 或 字 节 建立 索引 ， 
Sub part 表示 的 就 是 这 个 n。 如 果 对 完整 的 列 建立 索引 ，Sub _part 的 值 就 是 NULL 

packed 该 列 如 何 被 压缩 ，NULL 值 表示 未 被 压缩 。 这 个 属性 我 们 目前 不 用 了 解 ， 可 以 先 忽略 掉 

Null 该 列 是 否 允 许 存储 NULL 值 

Index type 该 列 所 属 索引 的 类 型 ， 我 们 最 常见 的 就 是 BTREE， 其 实 也 就 是 B+ 树 索引 

Comment 该 列 所 属 索 引 的 一 些 额外 信息 


创建 索引 时 ， 使 用 COMMENT 语句 为 该 索引 添加 的 注释 信息 


在 上 述 属 性 中 ， 大 家 除了 Packed 可 能 看 不 懂 以 外 ， 其 他 的 应 该 都 可 以 看 懂 。 其 实 我 们 现 
在 最 在 意 的 是 Cardinality 属性 。Cardinality 在 中 文中 是 “基数 ”的 意思 ， 表 示 某 个 列 中 不 重复 
的 值 的 个 数 。 比 如 对 于 一 个 有 10,000 行 记 录 的 表 来 说 ， 某 个 列 的 Cardinality 属性 值 是 10,000， 
就 意味 着 该 列 中 没有 重复 的 值 ， 如果 Cardinality 属性 是 1， 就 意味 着 该 列 的 值 全 部 都 是 重复 
的 。 需 要 注意 的 是 ， 对 于 InnoDB 存储 引擎 来 说 ， 使 用 SHOW INDEX 语句 显示 出 来 的 某 个 列 
的 Cardinality 属性 是 一 个 估计 值 ， 并 不 精确 。 关 于 这 个 Cardinality 属性 的 值 的 计算 方法 会 在 下 
一 章 介 绍 ， 我 们 先 看 看 它 有 什么 用 途 。 

前 面 讲 到 ， 当 JIN 语句 中 对 应 的 单 点 区 间 数 量 大 于 或 等 于 系统 变量 eq range index dive_ 
limit 的 值 时 ， 就 不 会 使 用 index dive 来 计算 各 个 单 点 区 间 对 应 的 索引 记录 条 数 ， 而 是 使 用 索引 
统计 数据 (index statistics)。 这 里 的 索引 统计 数据 指 的 是 下 面 这 两 个 值 。 

@ 使 用 SHOW TABLE STATUS 语句 显示 出 来 的 Rows 值 : 表示 一 个 表 中 有 多 少 条 记录 。 

这 个 统计 数据 在 前 面 啼 嘱 全 表 扫 描 的 成 本 时 已 经 说 过 很 多 遍 ， 就 不 装 述 了 。 

e 使 用 SHOW INDEX 语句 显示 出 来 的 Cardinality 属性 。 

结合 Rows 统计 数据 ， 我 们 可 以 计算 出 在 某 一 个 列 中 一 个 值 平均 重复 多 少 次 。 
复 次 数 大 约 等 于 Rows 除 以 Cardinality 的 值 。 

以 single table 表 的 idx keyl 索引 为 例 ，Rows 值 是 9693，keyl 列 的 Cardinality 值 是 968， 
所 以 可 以 计算 keyl 列 单个 值 的 平均 重复 次 数 : 9,693 二 968=10 条 。 


Index comment 


一 个 值 的 重 
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此 时 再 看 本 节 最 开始 的 那 条 查询 语句 : 


SELECT * FROM single table WHERE keyl IN ('aal'， "aa2', 'aa3', ...,， “计生 


假设 IN 语句 对 应 着 20,000 个 单 点 扫描 区 间 ， 束 直 接 使 用 统计 数据 来 估算 这 些 单 点 扫描 区 
间 对 应 的 记录 条 数 了 。 每 个 单 点 扫描 区 间 大 约 对 应 10 条 记录 ， 所 以 总 共 需 要 回 表 的 记录 数 就 
是 20,000 x 10 = 200.000。 

使 用 统计 数据 来 计算 单 点 扫描 区 间 对 应 的 索引 记录 条 数 可 比 index dive 方式 简单 多 了 ， 但 是 


它 的 致命 弱点 就 是 不 精确 ! 使 用 统计 数据 算出 来 的 查询 成 本 与 实际 执行 时 的 成 本 可 能 相差 很 大 。 
国 






和 ca ; L 2 和 、 ef : ER ~ c A yp /4 TS 3 和 ee - 人 A 
需要 注意 的 是 ， 在 入 2 5.7.3 以 及 之 前 的 肪 本 中 60 Ton 
人 A vie MySQL 5.7.3 以 re 1 Sr a > oe ey jc 
. g 1 了 2 ed : Wa | | Lr i er Ss A > 了 ed i | wl 
~ - “上 默认 值 为 10， 在 之 后 的 版 中 默认 值 为 200。 如 果 大 家 采用 的 是 MvSOF 5s73 
全: . . We 
六 的 版 本 ， 很 容易 采用 索引 统计 数据 (而 不 是 index dive ) 来 计算 查询 成 本 。， 
AS 版 » ; 本 而 ; = 下 站 二 re > 0 Ww 
。 < SS ee ex 六 =- 让 Ew 
小 中 士 。 含 了 IN 子 句 ， 但 是 实际 上 没有 使 用 索引 执行 查询 时 ， 就 应 该 才 一 下 
| A i SE re Pl Oh ey Se Ng 
Iange_index_dive limit 值 太 小 而 导致 的 . SE os 












12.3 “连接 查询 的 成 本 


12.3.1 准备 工作 | 


连接 查询 至 少 需 要 两 个 表 参 与 ， 只 有 一 个 single table 表 是 不 够 的 。 为 了 故事 的 顺利 发 展 ， 


我 们 直接 构造 一 个 与 single table 表 一 样 的 single_table2 表 。 简 便 起 见 ， 在 后 面 的 查询 语句 中 ， 
我 们 把 single_table 写 为 s1， 把 single table2 写 为 s2 。 


12.3.2 条 件 过 滤 ( Condition Filtering ) 


前 文 说 过 ， 在 MySQL 中 连接 查询 采用 的 是 嵌 套 循环 连接 算法 ， 驱动 表 会 被 访问 一 次 ， 被 
江 动 表 可 能 会 被 访问 多 次 。 所 以 ， 对 于 两 表 连 接 查询 来 说 ， 它 的 查询 成 本 由 两 部 分 构成 : 

e 单 次 查询 驱动 表 的 成 本 ; 

和 多 次 查询 被 驱动 表 的 成 本 (具体 查询 多 少 次 取决 于 针对 驱动 表 查 询 后 的 结果 集中 有 多 

少 条 记录 )。 

我 们 把 查询 驱动 表 后 得 到 的 记录 条 数 称 为 驱动 表 的 扇 出 (fanout)。 显 然 ， 驱 动 表 的 扇 出 
值 越 小 ， 对 被 驱动 表 的 查询 次 数 也 就 越 少 ， 连接 查询 的 总 成 本 也 就 越 低 。 当 查询 优化 器 想 计 算 
执行 整个 连接 查询 所 需 的 成 本 时 ， 融 需 要 计算 出 驱动 表 的 扇 出 值 。 有 时 肩 出 值 的 计算 是 很 容易 
的 ， 比 如 下 面 这 两 个 查询 。 

e 碍 询 1: 


SELECT * FROM sl INNER JOIN s2; 


假设 使 用 sl 表 作 为 驱动 表 ， 很 显然 就 只 能 使 用 全 表 扫描 的 方式 对 驱动 表 执行 单 表 查 询 。 
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双 动 考 的 扇 出 值 也 很 明确 ， 那 就 是 驱动 表 中 有 多 少 记录 ， 扇 出 值 就 是 多 少 。 前 面 说 过 ,统计 数 
据 中 sl 表 的 记录 行 数 是 9 693， 也 就 是 说 优化 器 直接 会 把 9.693 当 作 sl 表 的 扇 出 值 。 
@ 查询 2: 


SELECT * FROM sl INNER JOIN s2 
WHERE sl1.key2 >10 AND sl.key2 < 1000; 


仍然 假设 sl 表 是 驱动 表 ， 很 显然 可 以 使 用 uk_key2 索引 对 驱动 表 执 行 单 表 查 询 。 此 时 uk_ 
key2 的 扫描 区 间 〈10，1000) 中 有 多 少 条 记录 ， 那 么 扇 出 值 就 是 多 少 。 我 们 前 面 计算 过 ， 满 
足 uk key2 的 扫描 区 间 〈10，1000) 的 记录 数 是 95 条 ， 也 就 是 说 在 本 查询 中 优化 器 会 把 95 当 
作 驱 动 表 sl 的 扇 出 值 。 
事情 不 会 总 是 一 帆 风 顺 的 ， 要 不 然 剧情 就 太平 淡 了 人。 有 时 扇 出 值 的 计算 会 变 得 很 棘手 ， 比 
如 下 面 这 几 个 查询 。 
@ 查询 3: | 


SELECT * FROM sl1 INNER JOIN s2 
WHERE sl .common field > 'xyz'; 


查询 3 和 查询 1 类 似 ， 只 不 过 在 查询 驱动 表 sl 时 多 了 一 个 common field>'xyz' 的 搜索 条 件 。 
优化 器 又 不 会 真正 地 去 执行 查询 ， 所 以 它 只 能 猜 这 9,693 条 记录 中 有 多 少 条 记录 满足 common_ 
field>'xyz' 条 件 。 
e@ 查询 4: 
SELECT * FROM sl INNER JOIN s2 
WHERE sl1.key2 > 10 AND sl.key2 < 1000 AND / 
sl1 .common field > 'xyz'; 
查询 4 和 查询 2 类 似 ， 只 不 过 在 查询 驱动 表 sl 时 也 多 了 一 个 common field>'xyz' 的 搜索 条 | 
件 。 不 过 因为 查询 4 可 以 使 用 uk key2 索引 ， 所 以 只 需要 在 二 级 索引 扫描 区 间 的 记录 中 猜测 有 
多 少 条 记录 符合 common field>'xyz' 条 件 ， 也 就 是 只 需要 在 95 条 记录 中 猜测 有 多 少 条 记录 符 
合 common field>'xyz' 条 件 即 可 。 
@ 查询 5: 
SELECT * FROM sl INNER JOIN s2 / 
WHERE sl.key2 > 10 AND si.key2 < 1000 AND . 
sl.keyl IN ('a', 'b', 'c') AND 
sl1.common_ field > 'xy2z'; 
查询 5 和 查询 2 类 似 ， 不 过 在 对 驱动 表 sl 选取 uk_key2 索引 执行 查询 后 ， 查 询 优 化 器 需 
要 在 二 级 索引 扫描 区 间 的 记录 中 猜测 有 多 少 条 记录 符合 下 面 两 个 条 件 : 
sm keyl IN (a','b','c') 
nm common field> xyz 
也 就 是 优化 器 需要 在 95 条 记录 中 猜测 有 多 少 条 记录 符合 上 述 两 个 条 件 。 
说 了 这 么 多 ， 其 实 就 是 想 表 达 在 下 面 两 种 情况 下 计算 驱动 表 扇 出 值 时 ， 需 要 靠 猜测 。 
e 如 果 使 用 全 表 扫 描 的 方式 执行 单 表 查询 ， 那 么 计算 驱动 表 扇 出 值 时 需要 猜测 满足 全 部 











| 
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] z 
搜索 条 件 的 记录 到 底 有 多 少 条 。 
” 如 全 使 用 索引 来 执行 单 表 查 询 ， 那 么 计算 驱动 表 扇 出 值 时 需要 猜测 除了 满足 形成 索引 
扫描 区 间 的 搜索 条 件 外 ， 还 满足 其 他 搜索 条 件 的 记录 有 多 少 条 。 
设计 MySQL 的 大 叔 把 这 个 猜测 过 程 称 为 Condition Filtering《〈 条 件 过 滤 )。 当 然 ， 这 个 猜 
中 过 程 可 能 会 使 用 到 索引 ， 也 可 能 会 使 用 到 统计 数据 ， 还 有 可 能 就 是 设计 MySQL 的 大 叔 单纯 


地 瞎 猜 。 整个 评估 过 程 其 实 挺 复杂 的 ， 骨 仔 细 地 吐 忠 一 遍 可 能 会 引起 大 家 的 不 适 ， 所 以 这 里 就 
跳 过 了 。 






在 MySQL 5.7 之 前 

扫描 执行 查询 ， 就 直接 使 用 表 中 - 水 人 

->X- 。 接 使 用 在 扫描 区 间 中 的 记录 条 数 作为 
外 入 了 这 个 条 件 过 尖 的 动能 ， 就 是 还 
小 贴 士 “过滤 多 少 条 ， 其 实 未 质 上 就 
我 们 所 说 的 “单纯 瞎 
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12.3.3 ”两 表 连 接 的 成 本 分 析 


连接 查询 的 成 本 计算 公式 是 这 样 的 : 

连接 查询 总 成 本 = 单 次 访 问 驱 动 表 的 成 本 + 驱动 表 扇 出 值 x 单 次 访问 被 驱动 表 的 成 本 

对 于 左 《〈 外 ) 连接 和 右 〈 外 ) 连接 查询 来 说 ， 它们 的 驱动 表 是 固定 的 ， 所 以 只 需要 分 别 为 
驱动 表 和 被 驱动 表 选 择 成 本 最 低 的 访问 方法 ， 束 可 以 得 到 最 优 的 查询 方案 。 

可 是 对 于 内 连接 来 说 ， 驱 动 表 和 被 驱动 表 的 位 置 是 可 以 互 换 的 ， 因此 需要 考虑 两 个 方面 的 
问题 ; 

e 当 不 同 的 表 作 为 驱动 表 时 ， 最 终 的 查询 成 本 可 能 不 同 ， 也 就 是 需要 考虑 最 优 的 表 连 接 顺序 ; 

四 然后 分 别 为 驱动 表 和 被 驱动 表 选择 成 本 最 低 的 访问 方法 。 


很 显然 ， 计 算 内 连接 查询 成 本 的 方式 更 麻烦 一 些 。 下 面 就 以 内 连接 为 例 来 看 看 如 何 计算 出 
最 优 的 连接 查询 方案 。 
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SELECT * FROM sl INNER JOIN 时 
ON sl.keyl = s2.common field 


WHERE sil.key2 > 10 AND sl.key2 < 1000 AND 
s2.key2 > 1000 AND es < 2000; 


可 以 选择 的 连接 顺序 有 两 种 : 
e sl 连接 s2， 即 s1 作为 驱动 表 ，s2 作为 被 驱动 表 ， 
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e@ S2 连接 s1， 即 s2 作为 驱动 表 ，sl 作为 被 驱动 表 。 

优化 器 需要 分 别 考虑 这 两 种 情况 下 的 查询 成 本 ， 然 后 选取 成 本 更 低 的 那个 连接 顺序 ， 以 及 
该 连接 顺序 下 各 个 表 的 最 优 访问 方法 作为 最 终 的 执行 计划 。 我 们 分 别 来 看 一 下 〈 这 里 只 是 定性 
地 分 析 ， 不 再 像 分 析 单 表 查 询 那样 进行 定量 分 析 了)。 


1. 使 用 s1 作为 驱动 表 

分 析 针 对 驱动 表 的 成 本 最 低 的 执行 方案 ， 看 一 下 涉及 sl 这 一 单 表 的 搜索 条 件 有 哪些 。 

© sl.key2>10AND sl.key2<1000 

这 个 查询 可 能 使 用 uk_key2 索引 。 从 全 表 扫 描 与 使 用 uk_key2 这 两 个 方案 中 选 出 成 本 最 低 
的 那个 。 这 个 过 程 已 经 在 前 文 都 啼 明 过 了 ， 很 显然 使 用 uk_key2 执行 查询 的 成 本 更 低 。 

然后 分 析 针 对 被 驱动 表 的 成 本 最 低 的 执行 方案 ， 此 时 涉及 被 驱动 表 s2 的 搜索 条 件 如 下 。 

e@e s2.common field 二 常数 (这 是 因为 针对 驱动 表 sl 结果 集中 的 每 一 条 记录 ， 都 需要 访问 

一 次 被 驱动 表 s2， 那 些 涉及 两 表 的 条 件 现在 相当 于 只 涉及 被 驱动 表 52)。 

© s2.key2>1000AND s2.key2<2000。 

很 显然 ， 在 第 一 个 条 件 中 ， 由 于 common field 没有 用 到 索引 ， 所 以 并 没有 什么 用 。 此 时 
用 来 访问 s2 表 的 可 用 方案 也 是 使 用 全 表 扫 描 和 使 用 uk key2 这 两 种 ， 很 显然 使 用 uk key2 的 
成 本 更 低 。 

所 以 ， 此 时 使 用 sl 作为 驱动 表 的 成 本 如 下 〈 和 暂时 不 考虑 使 用 Join Buffer 对 成 本 的 影响 ): 

使 用 uk key2 访问 sl 的 成 本 + sl 的 扇 出 值 x 使 用 uk key2 访问 s2 的 成 本 


2. 使 用 s2 作为 驱动 表 

分 析 针 对 驱动 表 的 成 本 最 低 的 执行 方案 ， 看 一 下 涉及 s2 这 一 单 表 的 搜索 条 件 有 哪些 。 

@ s2.key2>1000 AND s2.key2<2000 

这 个 查询 可 能 使 用 uk key2 索引 。 从 全 表 扫 描 与 使 用 uk key2 这 两 个 方案 中 选 出 成 本 最 低 
的 那个 。 这 个 过 程 已 经 在 前 文 都 啼 明 过 了 ， 很 显然 使 用 uk key2 执行 查询 的 成 本 更 低 。 

然后 分 析 针 对 被 驱动 表 的 成 本 最 低 的 执行 方案 ， 此 时 涉及 被 驱动 表 sl 的 搜索 条 件 如 下 。 

@ sl.keyl 二 常数 

@ sl.key2>10AND sl.key2<1000 

这 就 很 有 趣 了 。 使 用 idx keyl 时 可 以 使 用 ref 访问 方法 ， 使 用 uk key2 时 可 以 使 用 range 
访问 方法 。 这 时 优化 器 需要 从 全 表 扫 描 、 使 用 idx keyl1、 使 用 uk key2 这 几 个 方案 中 选 出 一 个 
成 本 最 低 的 方案 。 这 里 有 个 问题 : 因为 uk_key2 的 扫描 区 间 是 确定 的 ， 即 (10，1000)， 怎 么 
计算 使 用 uk key2 的 成 本 也 在 前 文中 介绍 过 了 ， 可 是 在 没有 真正 执行 查询 之 前 ,“sl.keyl = 常数 ” 
中 的 常数 值 是 不 知道 的 ， 怎 么 衡量 使 用 idx keyl 执行 查询 的 成 本 呢 ? 其 实 很 简单 ， 直 接 使 用 
索引 统计 数据 就 好 了 【〈 指 的 是 索引 列 一 个 值 平均 重复 多 少 次 的 统计 数据 )。 一 般 情 况 下 ，ref 访 
问 方法 要 比 range 访问 方法 的 成 本 低 ， 这 里 假设 使 用 idx keyl 来 访问 s1。 

此 时 使 用 s2 作为 驱动 表 时 的 总 成 本 如 下 暂时 不 考虑 使 用 Join Buffer 对 成 本 的 影响 ): 

使 用 uk_key2 访问 s2 的 成 本 + s2 的 扇 出 值 x 使 用 idx_ keyl 访问 sl 的 成 本 
最 后 ， 优 化 器 会 从 这 两 种 连接 顺序 中 选 出 成 本 最 低 的 那 种 真正 地 执行 查询 。 从 上 面 的 计算 


过 程 中 也 可 以 看 出 来 ， 在 连接 查询 的 成 本 中 “ 占 大 头 ” 的 其 实 是 驱动 表 扇 出 数 x 单 次 访问 被 驱 
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动 表 的 成 本 ， 所 以 我 们 的 优化 重点 就 是 下 面 这 两 点 ; 

e 尽量 减少 驱动 表 的 扇 出 ; 

e 访问 被 驱动 表 的 成 本 要 尽量 低 。 

在 我 们 实际 书写 连接 查询 语句 时 ， 第 二 点 十 分 有 用 。 我 们 需要 尽量 在 被 驱动 表 的 连接 列 上 
建立 索引 ， 这 样 就 可 以 使 用 ref 访问 方法 来 降低 被 驱动 表 的 访问 成 本 了 。 如 果 可 以 ， 被 驱动 表 


的 连接 列 最 好 是 该 表 的 主键 或 者 唯一 二 级 索引 列 ， 这 样 就 可 以 把 访问 被 驱动 表 的 成 本 降 至 更 
低 了 。 


| 


12.3.4 多 表 连 接 的 成 本 分 析 


任 分 析 多 表 连 接 的 成 本 之 前 ， 首 先 要 考虑 多 表 连 接 可 能 会 生成 多 少 种 连接 顺序 ， 

。 对 于 两 表 连 接 ， 比 如 表 A 和 表 B 连接 ， 只 有 AB、BA 这 两 种 连接 顺序 (其实 相当 于 2 x 

1=2 种 连接 顺序 ); 
。 对 于 三 表 连 接 ， 比 如 表 A、 表 B、 表 C 进 行 连接 ， 有 ABC、ACB、BAC、BCA、 
CAB、CBA 这 6 种 连接 顺序 〈 其 实 相当 于 3 x 2 x 1 = 6 种 连接 顺序 ); 

e 对 于 四 表 连 接 ， 则 会 有 4x3 x 2 x 1 = 24 种 连接 顺序 . 

e 对 于 n 表 连接 ， 则 有 nx-Dxa- 2) Xx». x 1 种 连接 顺序 ， 就 是 n 的 阶乘 (nl) 
种 连接 顺序 。 

企 有 nn 个 表 进行 连接 时 ，MySQL 查询 优化 器 需要 计算 每 一 种 连接 顺序 的 成 本 么 ? 那 可 总 
计 有 nl 种 连接 顺序 呀 。 其 实 真 的 是 要 都 计算 一 遍 ， 只 不 过 设计 MySQL 的 大 披 想 了 很 多 办 法 
来 减少 因 计算 不 同 连接 顺序 下 的 查询 成 本 而 带 来 的 性 能 损耗 ， 

e 提前 结束 某 种 连接 顺序 的 成 本 评估 

MySQL 在 计算 各 种 连接 顺序 的 成 本 之 前 ， 会 维护 一 个 全 局 变量 ， 这 个 变量 表示 当前 最 小 
的 连接 查询 成 本 。 如 果 在 分 析 某 个 连接 顺序 的 成 本 时 ， 该 成 本 已 经 超过 当前 最 小 的 连接 查询 成 
本 ， 那 压根 儿 就 不 对 该 连接 顺序 继续 往 下 分 析 了 。 比 如 有 A、B、C 三 个 表 进 行 连接 ， 已 经 计算 
得 到 连接 顺序 ABC 是 当前 的 最 小 连接 成 本 《假设 为 10.0)。 在 计算 连接 顺序 BCA 的 成 本 时 ， 如 
朱 发 现 B 和 C 的 连接 成 本 就 已 经 大 于 10.0， 此 时 就 不 再 继续 进一步 分 析 BCA 连接 顺序 的 成 本 了 。 

e 系统 变量 optimizer_search depth 

为 了 防止 无 穷 无 尽 地 分 析 各 种 连接 顺序 的 成 本 ， 设 计 MySQL 的 大 坡 提供 了 一 个 optimizer 
search_depth 系统 变量 。 如 果 连 接 表 的 个 数 小 于 该 值 ， 那么 就 继续 穷 举 分 析 每 一 种 连接 顺序 的 
成 本 ， 否 则 只 对 数量 与 optimizer_search_depth 值 相 同 的 表 进 行 穷 举 分 析 。 很 显然 ， 该 值 越 大 ， 
成 本 分 析 越 精确 ， 也 就 越 容易 得 到 好 的 执行 计划 ， 但 是 消耗 的 时 间 也 就 越 长 ， 否 则 得 到 的 就 不 
是 很 好 的 执行 计划 ， 但 是 节省 了 连接 成 未 的 分 析 时 间 。 

® 某 些 规则 压根 儿 就 不 考虑 某 些 连接 顺序 

即使 存在 上 面 两 条 规则 的 限制 ， 但 是 在 分 析 多 个 表 的 不 同 连接 顺序 所 花费 的 成 本 时 ， 用 
时 还 会 很 长 ， 所 以 设计 MySQL 的 大 叔 干脆 提出 了 一 些 启发 式 规则 《就 是 根据 以 往 经 验 指定 的 
“至 吏 见 )。 凡 是 不 满足 这 些 规则 的 连接 顺序 压根 儿 就 不 分 析 ， 这 样 可 以 极 大 地 降低 需要 分 析 
中 连接 顺序 的 数量 ， 但 这 样 也 可 能 错失 最 优 的 执行 计划 。 他 们 提供 了 一 个 系统 变量 optimizer 
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prune_level 来 控制 是 否 使 用 这 些 启 发 式 规则 。 | 


12.4 调节 成 本 吕 数 

前 文 曾经 介绍 了 两 个 成 本 常数 

。 读 取 一 个 页 面 花费 的 成 本 默认 是 1.0; 

。 读 取 以 及 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 本 默认 是 0.2。 

其 实 除了 这 两 个 之 外 ，MySQL 还 支持 好 多 成 本 常数 ， 它 们 存储 在 mysql 数据 库 〈 这 是 一 
个 系统 数据 库 ) 的 两 个 表 中 ; 


mysql> SHOW TABLES FROM mysql LIKE “$CosStS$ " ; 


| engine cost | 
| server cost | 


2 rows in set (0.00 sec) 


第 1 章 讲 到 ， 一 条 语句 在 执行 时 ， 其 实 是 分 为 在 server 层 和 存储 引擎 层 这 两 层 执 行 。 在 
server 层 进行 连接 管理 、 查 询 缓 存 、 语 法 解析 、 查 询 优 化 等 操作 ， 在 存储 引擎 层 执行 具体 的 数 
据 存 取 操 作 。 也 就 是 说 ， 一 条 语句 在 server 层 进行 操作 的 成 本 与 它 在 操作 表 时 使 用 的 存储 引擎 
没有 任何 关系 ， 那 些 在 server 层 进 行 的 操作 对 应 的 成 本 常数 存储 在 server cost 表 中 ， 而 依赖 于 
存储 引擎 的 操作 对 应 的 成 本 常数 存储 在 engine cost 表 中 。 


12.4.1 mysql.server_cost 表 


server cost 表 记 录 了 在 server 层 进行 的 一 些 操作 所 对 应 的 成 本 常数 ， 具 体内 容 如 下 : 


mysql> SELECT * FROM mysql.server cost; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +4 一 一 一 一 一 一 一 一 一 一 
| cost name | cost valuvue | last update | comment | 
二 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 
| Gdisk temptable create cost | NULL | 2018-01-20 12:03:21 | NULL | 
| Gdisk temptable row_ cost | NULL | 2018-01-20 12:03:21 | NULL | 
| key_compare_ cost | NULL | 2018-01-20 12:03:21 | NULL | 
| memory temptable create cost | NULL | 2018-01-20 12:03:21 | NULL | 
| memory_ temptable row_ cost | NULL | 2018-01-20 12:03:21 | NULL | 
| row_ evaluate cost | NULL | 2018-01-20 12:03:21 | NULL | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 


6 rows in set (0.05 sec) 


先 看 一 下 server_cost 表 中 的 各 个 列 分 别 是 什么 意思 。 

@ cost name : 表示 成 本 常数 的 名 称 。 

@ cost value : 表示 成 本 常数 对 应 的 值 。 如 果 该 列 的 值 为 NULL， 则 意味 着 对 应 的 成 本 常 
数 会 采用 默认 值 。 

9 1last update : 表示 最 后 更 新 记录 的 时 间 。 
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e comment : 注释 。 


从 server_cost 表 中 的 内 容 可 以 看 出 ， 目前 在 server 层 的 一 些 操 作对 应 的 成 本 常数 有 以 下 几 


表 12-2 ”server 层 的 一 些 操作 对 应 的 成 本 常数 
成 本 常数 名 称 默认 值 描述 


种 〈 见 表 12-2 )。 


创建 基于 磁盘 的 临时 表 的 成 本 。 如 果 增 大 这 个 值 ， 则 会 让 查询 
优化 器 尽 可 能 少 地 创建 基于 磁盘 的 临时 表 


向 基于 磁盘 的 临时 表 写 入 或 读 取 一 条 记录 的 成 本 。 如 果 增 大 这 
个 值 ， 则 会 让 查询 优化 器 尽 可 能 少 地 创建 基于 磁盘 的 临时 表 


两 条 记录 进行 比较 操作 的 成 本 ， 多 用 在 排序 操作 中 。 如 果 增 大 
key_compare cost 这 个 值 ， 则 会 提升 filesort 的 成 本 ， 从 而 让 查询 优化 器 更 倾向 于 


disk temptable create cost 


disk temptable row cost 


使 用 索引 《而 不 是 filesort) 完成 排序 


创建 基于 内 存 的 临时 表 的 成 本 。 如 果 增 大 这 个 值 ， 则 会 让 查询 
优化 器 尽 可 能 少 地 创建 基于 内 存 的 临时 表 


向 基于 内 存 的 临时 表 写 入 或 读 取 一 条 记录 的 成 本 。 如 果 增 大 这 
个 值 ， 则 会 让 查询 优化 器 尽 可 能 少 地 创建 基于 内 存 的 临时 表 


读 取 并 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 本 〈 我 们 在 前 面 一 
rOW_evaluate_cost 直 使 用 的 就 是 它 )。 如 果 增 大 这 个 值 ， 可 能 会 让 查询 优化 器 更 倾 
向 于 使 用 索引 而 不 是 全 表 扫 找 ) 


memory temptable create cost 


memory temptable row_ cost 


和 二 训 如 信 DISTINCT 于 条 GROUP 有 了 
he ao pra bh» 9 






, ’ J 于 的 枉 训 ， 

a eh 
ss Re 要 去 
和 时 表 中 ， 扩 和 完成 之 后 的 记 es 和 -0 和 
小 贴 士 和 世人 4 ISA 中 ee mnol op 2 让 


下 他 > J 
区 六 aoa 4 
2™ Fr PA Ln 一 
J 1 pt Ws Se Fe Ea 
本 站 yy .4 > Rt 了 Ee _ 
- 2 -并 XxX 过 EE eg ”4% AR) 二 | 才 - < 
1 入 ~ TP Ss sree 2 py 和 (yy { 避 Moh 
人 a ”3 和 Ws , jo Ce - sa 】 LL : 
二 Fp 、 me cf N ory 
-= -和 和 Vy J “Ws 2 
we « P ' 1 64 a 和 « Tt 2 时 
FT 下 两 4 2 1 双 
lr -3 六 Wi We 中 所 碟 A ” 4 


Ds 


这 些 成 本 常数 在 server cost 表 中 的 初始 值 都 是 NULL， 这 意味 着 查询 优化 器 会 使 用 它们 的 


默认 值 来 计算 某 个 操作 的 成 本 。 如 果 想 修改 某 个 成 本 常数 的 值 ， 需要 执行 两 个 步骤 。 


步骤 1， 对 感 兴趣 的 成 本 常数 进行 更 新 。 比 如 ， 我 们 想 把 读 取 并 检测 一 条 记录 是 否 符合 搜索 
条 件 的 成 本 增 大 到 0.4， 就 可 以 按照 下 面 的 方式 来 写 更 新 语句 : 


UPDRTE mysgl.server _c9st 
SET cost value = 0.4 
WHERE cost name ti 'row evaluate cost'; 


步骤 2. 让 系统 重新 加 载 这 个 表 的 值 。 为 此 可 以 使 用 下 面 这 条 语句 : 
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FLUSH OPTIMIZER COSTS; 


当然 ， 在 修改 完 某 个 成 本 常数 后 想 把 它们 再 恢复 成 默认 值 ， 可 以 直接 把 cost_value 的 值 设 1 
置 为 NULL， 然 后 再 使 用 FLUSH OPTIMIZER_COSTS 语句 让 系统 重新 加 载 就 好 了 。 


12.4.2 mysql.engine_cost 表 
engine cost 表 中 记录 了 在 存储 引擎 层 进行 的 一 些 操作 所 对 应 的 成 本 常数 ， 具 体内 容 如 下 : 


mysql> SELECT * FROM mysql.engine_cost; 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 
| engine name | device type | cost name | cost value | last update | comment | 





一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 








十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 | 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 个 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 个 
| default | 0 | io block _ read cost | NULL | 2018-01-20 12:03:21 | NULL | 
| default | 0 | memory block_read cost | NULL | 2018-01-20 12:03:21 | NULL | 
+ 一 - 一 -一 -一 ~ 一 一 二 一 一 一 一 一 一 一 一 一 -一 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -二 -一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 





2 rows in set (0.05 sec) 


与 server cost 表 相 比 ，engine_cost 表 多 了 下 面 这 两 个 列 。 

e engine name : 成 本 常数 适用 的 存储 引擎 的 名 称 。 如 果 该 值 为 default， 则 意味 着 对 应 的 
成 本 常数 适用 于 所 有 的 存储 引擎 。 

e@ device type : 存储 引擎 使 用 的 设备 类 型 。 这 主要 是 为 了 区 分 常规 的 机 械 硬 盘 和 固态 硬  . 
盘 。 不 过 在 MySQL 5.7.22 版 本 中 并 没有 对 机 械 硬 盘 的 成 本 和 固态 硬盘 的 成 本 进行 区 
分 ， 所 以 该 值 默 认 是 0。 

从 engine cost 表 中 的 内 容 可 以 看 出 ， 目 前 支持 的 存储 引擎 成 本 常数 只 有 两 个 ， 如 表 12-3 所 示 。 


表 12-3 engine_cost 支持 的 存储 引擎 成 本 常数 
成 本 常数 名 称 默认 值 描述 


从 磁盘 上 读 取 一 个 块 对 应 的 成 本 。 请 注意 这 里 使 用 的 是 “ 块 ”， 而 不 
io_block read cost 是 “页 ”。 对 于 InnoDB 存储 引擎 来 说 ， 一 个 页 就 是 一 个 块 ， 不 过 对 于 
MyISAM 存储 引擎 来 说 ， 默 认 以 4.096 字 节 作为 一 个 块 


四 与 上 一 个 成 本 常数 类 似 ， 只 不 过 衡量 的 是 从 内 存 中 读 取 一 个 块 对 应 的 
memory block read cost 成 本 


大 家 看 完 这 两 个 成 本 常数 的 默认 值 后 是 不 是 有 些 疑 惑 : 怎么 从 内 存 中 和 从 磁盘 上 读 取 一 个 
块 的 默认 成 本 是 一 样 的 ? 这 可 能 是 因为 在 MySQL 目前 的 实现 中 ， 并 不 能 准确 预测 某 个 查询 需 
要 访问 的 块 中 有 哪些 块 已 经 加 载 到 内 存 中 ， 有 哪些 块 还 停留 在 磁盘 上 。 所 以 设计 MySQL 的 大  - 
叔 们 很 粗暴 地 认为 无 论 这 个 块 是 否 已 被 加 载 到 内 存 中 ， 使 用 成 本 都 是 1.0。 不 过 随 着 MySQL 
的 发 展 ， 等 到 可 以 准确 预测 哪些 块 在 磁盘 上 ， 哪 些 块 在 内 存 中 的 那 一 天 ， 这 两 个 成 本 常数 的 默 
认 值 可 能 会 发 生 改 变 吧 。 

与 更 新 server_cost 表 中 的 记录 一 样 ， 我 们 也 可 以 通过 更 新 engine cost 表 中 的 记录 来 更 改 
关于 存储 引擎 的 成 本 常数 。 也 可 以 通过 为 engine cost 表 插 入 新 记录 的 方式 来 添加 只 针对 某 种 
存储 引擎 的 成 本 常数 。 


OY 


Ts 
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e 插入 针对 某 个 存储 引擎 的 成 本 常数 。 比如 我 们 想 增 大 InnoDB 存储 引擎 的 页 面 1/O 的 成 
本 ， 书 写 正 常 的 插入 语句 即 可 : 


INSERT INTO mysql .engine cost 


VALUES ('InnoDB', 0， "i0_block_read_ cost', 2.0; 


CURRENT_TIMESTAMP, 'increase Innodb I/O cost'); 


® 让 系统 重新 加 载 这 个 表 的 值 。 为 此 可 使 用 下 面 的 语句 : 


FLUSH OPTIMIZER COSTS:; 
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在 MySQL 中 ， 一 个 查询 的 执行 成 本 是 由 IO 成 本 和 CPU 成 本 组 成 的 。 对 于 InnoDB 存储 


引擎 来 说 ， 读 取 一 个 页 面 的 IO 成 本 默认 是 1.0， 读 取 以 及 检测 一 条 记录 是 否 符合 搜索 条 件 的 
成 本 默认 是 0.2。 


在 单 表 查 询 中 ， 优化 器 生成 执行 计划 的 步骤 一 般 如 下 。 
步骤 1. 根据 搜索 条 件 ， 找 出 所 有 可 能 使 用 的 索引 。 
步骤 2. 计算 全 表 扫 描 的 代价 ， 
步骤 3， 计算 使 用 不 同 索引 执行 查询 的 代价 。 
步骤 4. 对 比 各 种 执行 方案 的 代价 ， 找 出 成 本 最 低 的 那个 方案 。 
在 优化 器 生成 执行 计划 的 过 程 中 ， 需要 依赖 一 些 数据 。 这 些 数据 可 能 是 使 用 下 面 两 种 方式 
得 到 的 : 

。 index dive : 通过 直接 访问 索引 对 应 的 B+ 树 来 获取 数据 。 

e 索引 统计 数据 : 直接 依赖 对 表 或 者 索引 的 统计 数据 。 

为 了 更 准确 地 计算 连接 查询 的 成 本 ， 设 计 MySQL 的 大 叔 提 出 了 条 件 过 滤 的 概念 ， 也 就 是 
沙 用 某 些 规则 来 预测 驱动 表 的 扇 出 值 。 

对 于 内 连接 来 说 ， 为 了 生成 成 本 最 低 的 执行 计划 ， 需要 考虑 两 方面 的 事情 : 

e 选择 最 优 的 表 连 接 顺 序 ; 

e 为 驱动 表 和 被 驱动 表 选 择 成 本 最 低 的 访问 方法 。 

我 们 可 以 通过 手动 修改 mysql 数 据 库 下 engine_cost 表 或 者 server_cost 表 中 的 某 些 成 本 常数 ， 
更 精确 地 控制 在 生成 执行 计划 时 的 成 本 计算 过 程 。 
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我 们 前 面 在 踪 轨 查询 成 本 时 经 常用 到 一 些 统 计数 据 ， 比 如 通过 SHOW TABLE STATUS 语 
句 可 以 看 到 关于 表 的 统计 数据 ， 通 过 SHOW INDEX 语 句 可 以 看 到 关于 索引 的 统计 数据 。 那 么 
这 些 统计 数据 是 怎么 来 的 呢 ? 它们 是 以 什么 方式 收集 的 呢 ? 本 章 将 聚焦 于 InnoDB 存储 引擎 的 
统计 数据 收集 策略 。 看 完 本 章 后 大 家 就 会 明白 为 喻 前 文 老 说 InnoDB 的 统计 信息 是 不 精确 的 估 
计 值 了 ( 言 下 之 意 就 是 我 们 不 打算 介绍 MyISAM 存储 引擎 的 统计 数据 的 收集 和 存储 方式 ， 有 
想 了 解 的 读者 请 自行 查阅 文档 )。 


13.1 统计 数据 的 存储 万 式 


InnoDB 提供 了 两 种 存储 统计 数据 的 方式 ， 分 别 是 永久 性 地 存储 统计 数据 和 非 永久 性 地 存 
储 统 计数 据 。 

e 永久 性 地 存储 统计 数据 : 统计 数据 存储 在 磁盘 上 ， 在 服务 器 重启 之 后 这 些 统计 数据 依 

然 存在 。 
e 非 永久 性 地 存储 统计 数据 : 统计 数据 存储 在 内 存 中 ， 当 服务 器 关闭 时 这 些 统计 数据 就 
被 清除 掉 。 等 到 服务 器 重 局 之 后 ， 在 某 些 适当 的 场景 下 会 重新 收集 这 些 统计 数据 ，。 

设计 MySQL 的 大 叔 提 供 了 系统 变量 innodb stats persistent， 用 来 控制 将 统计 数据 存储 在 
何 处 。 在 MySQL 5.6.6 版 本 之 前 ，innodb stats persistent 的 值 默认 是 OFF， 也 就 是 说 InnoDB 
的 统计 数据 默认 存储 到 内 存 中 ; 自 MySQL 5.6.6 版 本 起 ，innodb stats persistent 的 值 默认 是 
ON， 也 就 是 统计 数据 默认 被 存储 到 磁盘 上 。 

不 过 ，InnoDB 默认 以 表 为 单位 来 收集 和 存储 统计 数据 ， 也 就 是 说 我 们 可 以 把 某 些 表 的 统 
计数 据 〈 以 及 该 表 的 索引 统计 数据 ) 存储 在 磁盘 上 ， 把 另 一 些 表 的 统计 数据 存储 在 内 存 中 。 这 
是 怎么 做 到 的 呢 ? 我 们 可 以 在 创建 和 修改 表 的 时 候 ， 通 过 指定 STATS PERSISTENT 属性 来 指 
明 该 表 的 统计 数据 的 存储 方式 : 


CREATE TABLE 表 名 (...) Engine=InnoDB, STATS PERSISTENT = (110) ; 
ALTER TABLE 表 名 Engine=InnoDB, STATS PERSISTENT = (1|0); 


当 STATS_PERSISTENT=1 时 ， 表 明 想 把 该 表 的 统计 数据 永久 存储 到 磁盘 上 ; 当 STATS 
PERSISTENT=0 时 ， 表 明 想 把 该 表 的 统计 数据 临时 存储 到 内 存 中 。 如 果 在 创建 表 时 未 指定 
STATS PERSISTENT 属性 ， 则 默认 采用 系统 变量 innodb stats persistent 的 值 作为 该 属性 的 值 。 
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当 我 们 选择 把 某 个 表 以 及 该 表 索 引 的 统计 数据 存放 到 磁盘 上 时 ， 实际 上 是 把 这 些 统计 数据 
存储 到 了 两 个 表 中 : 


mysql> SHOW TABLES FROM mysql LIKE '‘'innodb$%stats'; 


Ne 
| Tables_in mysqgl (innodb%®%stats) | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| innodb index stats | 
| innodb table Stats | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


2 rows in set (0.02 sec) ] 


可 以 看 到 ， 这 两 个 表 都 位 于 mysql 系统 数据 库 下 面 ， 其 中 : 
® innodb table stats 存储 了 关于 表 的 统计 数据 ， 每 一 条 记录 对 应 着 一 个 表 的 统计 数据 ; 


e innodb index stats 存储 了 关于 索引 的 统计 数据 ， 每 一 条 记录 对 应 着 一 个 索引 的 一 个 统 
计 项 的 统计 数据 。 


我 们 下 面 的 任务 就 是 看 看 这 两 个 表 中 都 有 什么 字段 ， 以 及 表 中 的 数据 是 如 何 生 成 的 。 
ei he te 


直接 看 一 下 innodb table stats et 的 各 个 列 都 是 干 嘛 的 ， 如 表 13-1 所 示 。 
表 13-1 innodb_table_stats 表 中 各 个 列 的 用 途 





字段 名 | 描述 
database_name | 数据 库 名 
table_ name : 表 名 
last_update 本 条 记录 最 后 更 新 的 时 间 
n_TOWS | 表 中 记录 的 条 数 
clustered index size ] 表 的 聚 簇 索引 占用 的 页 面 数量 
sum_of other index sizes ] 表 的 其 他 索引 占用 的 页 面 数量 


注意 这 个 表 的 主键 是 (database name，table name)， 也 就 是 innodb table stats 表 的 每 条 
记录 代表 着 一 个 表 的 统计 信息 。 我 们 直接 看 一 下 这 个 表 中 的 内 容 : 


mysql> SELECT * FROM mysql.innodb tablelstats; 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 下 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 目 一 一 一 一 一 一 一 一 一 一 一 一 +4-———-———— +- 一 ~ 一 一 一 一 一 一 一 一 一 一 ~ 一 一 一 一 一 一 一 一 玉 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| database name | table name | last update | n rows | clustered index size | sum of other index sizes | 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 才 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 不 一 一 一 一 一 一 一 +~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 #-— 一 一 一 一 一 一 一 一 一 一 -一 一 一 ~ 一 -一 -~-- 一 一 + 
| mysal | gtid executed | 2018-07-10 23:51:36 | 0 | : 0 | 
| sys | sys_config | 2018-07-10 23:51:38 | - 才 1 | 0 | 
| xiaohaizi | single table | 2018-12-10 17:03:13 | 9693 | 97 | 175 | 
#4—-- 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -十 -一 -一 一 一 -~~ 一 -~ 一 一- 一 一 一 一 一 一 二 


2 rows in set (0.01 sec) 
可 以 看 到 我 们 熟悉 的 single_table 表 的 统计 信息 就 对 应 着 mysql.innodb table stats 表 的 第 3 


eg 
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条 记录 。 几 个 重要 的 统计 项 的 值 如 下 。 
e n rows 的 值 是 9,.693， 表 明 single table 表 中 大 约 有 9,693 条 记录 。 注 意 这 个 数据 是 信 
计 值 。 
@ clustered index size 的 值 是 97， 表 明 single_table 表 的 聚 艇 索引 占用 97 个 页 面 。 
@ sum of other index sizes 的 值 是 175， 表 明 single table 表 的 其 他 索引 一 共 占 用 175 个 
页 面 。 


1. n_rows 统计 项 的 收集 

为 啥 老 强 调 n_ rows 统计 项 的 值 是 估计 值 呢 ? 现在 就 来 揭晓 答案 。InnoDB 在 统计 一 个 表 中 
有 多 少 行 记 录 时 ， 套 路 是 这 样 的 : 按照 一 定 算法 (并 不 是 纯粹 随机 的 ) 从 聚 簇 索 引 中 选取 几 个 
叶子 节点 页 面 ， 统 计 每 个 页 面 中 包含 的 记录 数量 ， 然 后 计算 一 个 页 面 中 平均 包含 的 记录 数量 ， 
并 将 其 乘 以 全 部 叶子 节点 的 数量 ， 结 果 就 是 该 表 的 n_ rows 值 。 


S. 真实 的 计算 过 程 比 这 个 稍微 复杂 一 些 ， 不 过 大 致 上 就 是 这 样 的 . 
小 贴 士 
可 以 看 出 ， 这 个 n_ rows 值 精确 与 否 取决 于 统计 时 采样 的 页 面 数量 。 设 计 MySQL 的 大 叔 很 
贴心 地 为 我 们 准备 了 一 个 名 为 innodb stats persistent sample pages 的 系统 变量 。 在 使 用 永久 性 
的 统计 数据 时 ， 这 个 系统 变量 表示 计算 统计 数据 时 采样 的 页 面 数 量 。 该 值 设 置 得 越 大 ， 统 计 出 
的 n_rows 值 越 精确 ， 但 是 统计 耗 时 也 就 最 久 ; 该 值 设 置 得 越 小 ， 统 计 出 的 n_rows 值 越 不 精确 ， 
但 是 统计 耗 时 就 会 越 少 。 所 以 在 实际 使 用 时 需要 我 们 去 权衡 利弊 。 该 系统 变量 的 默认 值 是 20。 
前 文 说 过 ，InnoDB 默认 以 表 为 单位 来 收集 和 存储 统计 数据 。 我 们 也 可 以 单独 设置 某 个 表 
的 采样 页 面 的 数量 。 设 置 方式 就 是 在 创建 或 修改 表 时 通过 指定 STATS SAMPLE PAGES 属性 ， 
来 指明 统计 该 表 的 信息 时 使 用 的 采样 页 面 数 量 : 
@ CREATE TABLE 表 名 (...) Engine=InnoDB, STATS SAMPLE PAGES 王 具 体 的 采样 页 面 数量 ; 
e@e ALTER TABLE 表 名 Engine=InnoDB, STATS SAMPLE PAGES 王 具体 的 采样 页 面 数量 。 
如 果 在 创建 表 的 语句 中 并 没有 指定 STATS SAMPLE PAGES 属性 ， 将 默认 使 用 系统 变量 
innodb stats persistent sample pages 的 值 作为 该 属性 的 值 。 


2. clustered index_size 和 sum_of other index _sizes 统计 项 的 收集 


收集 这 两 个 统计 项 的 数据 时 ， 需 要 用 到 之 前 踪 功 的 InnoDB 表 空 间 的 大 量 知识 。 如 果 大 家 
压根 儿 没 有 看 第 9 章 ， 下 面 的 计算 过 程 也 就 不 要 看 了 ， 看 也 看 不 懂 。 如 果 看 过 了 那 一 章 的 内 
容 ， 就 会 发 现 InnoDB 表 空 间 的 知识 真是 有 用 啊 ! 

我 们 知道 一 个 索引 占用 2 个 段 ， 每 个 段 由 一 些 零散 的 页 面 以 及 一 些 完整 的 区 构成 。clustered 
index_size 代表 聚 簇 索引 占用 的 页 面 数 量 ，sum_of other index_sizes 代表 其 他 索引 总 共 占 用 的 
页 面 数量 ， 所 以 在 收集 这 两 个 统计 项 的 数据 时 ， 需 要 统计 各 个 索引 对 应 的 叶子 节点 段 和 非 叶子 
节点 段 分 别 占用 的 页 面 数 量 。 而 统计 一 个 段 占用 的 页 面 数 量 的 步骤 如 下 所 示 。 

步骤 1， 从 数据 字典 中 找到 表 的 各 个 索引 对 应 的 根 页 面 位 置 。 系 统 表 SYS_INDEXES 中 存储 

了 各 个 索引 对 应 的 根 页 面 信息 。 
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步骤 2. 从 根 页 面 的 Page Header 中 找到 叶子 节点 段 和 非 叶子 节点 段 对 应 的 Segment Header。 
在 每 个 索引 的 根 页 面 的 Page Header 部 分 都 有 两 个 字段 。 
e PAGE BTR_SEG LEAF : 表示 B+ 树叶 子 节点 段 的 Segment Header 信息 。 
e PAGE BTR_SEG_TOP : 表示 B+ 树 非 叶 子 节点 段 的 Segment Header 信息 。 
Segment Header 的 结构 示意 图 如 图 13-1 所 示 。 

步 又 3. 从 叶子 节点 段 和 非 叶 子 节 点 段 的 Segment Header 中 找到 这 两 个 段 对 应 的 INODE 
Entry 结构 。 
INODE Entry 的 结构 示意 图 如 图 13-2 所 示 。 


| 这 3 个 部 分 分 别 对 应 FREE、 


| NOT_FULL 和 FULL 链 表 的 基 节 点 
共 192 字 节 


此 处 共有 32 个 
Fragment Array Entry 





图 13-1 Segment Header 结构 示意 图 图 13-2 ”INODE Entry 结构 示意 图 


步骤 4. 针对 某 个 段 对 应 的 INODE Entry 结构 ， 从 中 找 出 该 段 对 应 的 所 有 零散 页 面 的 地 址 以 
及 FREE、NOT FULL 和 FULL 链表 的 基 节 点 。 
链表 基 节 点 的 示意 图 如 图 13-3 所 示 。 


这 两 个 字段 是 指向 XDES Entry 
链表 头 节点 的 指针 


这 两 个 字段 是 指向 XDES Entry 
链表 尾 节点 的 指针 





图 13-3 ”链表 基 节 点 的 示意 图 


步骤 $. 直接 统计 堆 散 的 页 面 有 多 少 个 ， 然 后 从 FREE、NOT FULL、FULL 这 3 个 链表 的 
List Length 字段 中 读 出 该 段 占用 的 区 的 数量 。 每 个 区 占用 64 个 页 ， 所 以 就 可 以 统 
计 出 整个 段 占用 的 页 面 。 

通过 上 面 5 个 步骤 ， 我 们 可 以 轻松 地 将 索引 的 某 个 段 占 用 的 页 面 数量 统计 出 来 ， 然 后 分 别 计 
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算 聚 簇 索引 的 叶子 节点 段 和 非 叶 子 节点 段 占用 的 页 面 数 ， 它 们 的 和 就 是 clustered_index_size 的 值 。 
按照 同样 的 套路 把 其 余 索 引 占 用 的 页 面 数 都 算出 来 ， 相 加 之 后 就 是 sum_of other index_sizes 的 值 。 

这 里 需要 注意 的 是 ， 当 一 个 段 的 数据 非常 多 时 (超过 32 个 页 面 )， 会 以 区 为 单位 来 申请 空 
间 。 这 里 的 问题 是 以 区 为 单位 申请 空间 后 ， 有 一 些 页 可 能 并 没有 使 用 ， 但 是 在 统计 clustered_ 
index size 和 sum of other jindex sizes 时 都 把 它们 算 进 去 了 ， 所 以 聚 簇 索引 和 其 他 索引 实际 占 
用 的 页 面 数 可 能 比 这 两 个 统计 项 的 值 要 小 一 些 。 


13.2.2 innodb index_stats 


直接 看 一 下 innodb index _stats 表 中 的 各 个 列 都 是 干 嘛 的 ， 如 表 13-2 所 示 。 
表 13-2 innodb index_stats 表 中 各 个 列 的 用 途 
字段 名 描述 
database name 数据 库 名 z 
table_ name 表 名 
index_name 索引 名 
last_update 本 条 记录 最 后 更 新 的 时 间 
stat_name 统计 项 的 名 称 : 
stat Value 对 应 的 统计 项 的 值 
sample size 为 生成 统计 数据 而 采样 的 页 面 数 量 
stat_description 对 应 的 统计 项 的 描述 


注意 这 个 表 的 主键 是 (database name，table name，index name，stat name)， 其 中 stat 
name 是 指 统计 项 的 名 称 ， 也 就 是 说 innodb index stats 表 中 的 每 条 记录 代表 着 一 个 索引 的 一 个 
统计 项 。 可 能 大 家 现在 不 知道 这 个 统计 项 到 底 指 什么 。 别 着 急 ， 我 们 直接 看 一 下 关于 single 
table 表 的 索引 统计 数据 都 有 些 什么 。 


wysql> SELECT * FROM mysql.innodb index stats WHERE table name = 'single table'; 











| database name | table name | index name | last update | stat name | stat_ valve | sample size | stat description | 
| Xiachaiz 主 | single table | PRIMARY | 2018-12-14 14:24:46 | n diff pfx01 | 9693 | 20 | id | 
| xiachaizi 1 single table | PRIMARY | 2018-12-14 14:24:46 | n_ leaf pages | 91 | NULL | Number of leaf pages in the index | 
| xiacohaizi | single table | PRIMARY 上 2018-12-14 14:24:46 | size | 97 | NULL | Number of pages in the index I 
| xiachaizi | single table | idx keyl | 2018-12-14 14:24:46 | n diff pfx01 | 968 | 28 | jxeyl | 
| xiaobhaizi 1 single table | idx keyl | 2018-12-14 14:24:46 | n diff pfx02 | 10000 | 28 ] keyl,id | 
| xiaohaizti 1 single table | idx keyl | 2018-12-14 14:24:46 | n leaf pages | 28 | NULL | Number of leaf pages in the index | 
| xiaohaizi | single table | idx keyl | 2018-12-14 14:24:46 | size | 29 | NULL | Number of pages in the index | 
| xiachaizi | single table | idx key3 | 2018-12-14 14:24:46 | n_ diff pfx01 | 799 | 3 | key3 | 
| xiaohaizi | single table | idx key3 | 2018-12-14 14:24:46 | n_ diff pfx02 | 10000 | 31 | key3,id | 
| xiachaizi | single table | idx key3 | 2018-~12-14 14;24:46 | n_leaf pages | 31 | NULL | Number of leaf pages in the index | 
| xiaohaizi | single table | idx_ key3 | 2018-12-14 14:24:46 | size | Se | NULL | Number of pages in the index | 
| xiaohaizi | single table | idx key part | 2018-12-14 14:24:46 | n diff pfx01 | 9673 | 64 | key partl | 
| xiachaizi 1 single table | idx key part | 2018-12-14 14:24:46 | n diff pfx02 | 9999 | 64 | key partl, key part2 | 
| xiaochaizi | single table | idx key part | 2018-12-14 14:24:46 | n diff pfx03 | 10000 | 54 | key partl, key part2,key part3 | 
| xiachaizi | single table | idx key part | 2018-12-14 14:24:46 | n diff pfx04 | 10000 | 64 | key partl, key Part2, key part3,id | 
| xiachaizti | single table | idx key part | 2018-12-14 14:24:46 | n leaf pages | 64 1 NULL | Number of leaf pages in the index | 
| xiachaizi | single table | idx key part | 2018-12-14 14:24:46 | size | "gr NULL | Nurber of pages in the index | 
| xiaohaizi 1 single table | uk key2 | 2018-12-14 14:24:46 | n diff pfx01 | 10000 | 16 | key2 | 
| xiaohaizi | single table | uk key2 | 2018-12-14 14:24:46 | n leaf pages | 16 | NULE | Number of leaf Pages in the index | 
| xiaohaizi 1 single table | uk_key2 | 2018~12-14 14:24:;46 | size | 17 | NULL | Number of pages in the index | 
一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 -一 一 + 一 一 一 





一 一 一 下 
20 rows in set (0.03 sec) 
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. 这 个 结果 有 点 多 ， 正 确 查 看 这 个 结果 的 方式 是 这 样 的 。 
} 步骤 1， 先 查看 index name 列 ， 这 个 列 用 来 说 明 该 记录 是 哪个 索引 的 统计 信息 。 从 结果 中 可 以 
看 出 ，PRIMARY 索引 (也 就 是 主键 ) 占 了 3 条 记录 ，idx _key part 索引 占 了 6 条 记录 。 

步骤 2. 针对 index name 列 相同 的 记录 ，stat _name 表示 针对 该 索引 的 统计 项 名 称 ，stat 学 

value 表 示 的 是 该 索引 在 该 统计 项 上 的 值 ，stat _descrniption 用 来 描述 该 统计 项 的 含义 。 

; 下 面具 体 看 看 一 个 索引 都 有 哪些 统计 项 。 

9 D_jeaf pages : 表示 该 索引 的 叶子 节点 实际 占用 多 少 页 面 。 

e size : 表示 该 索引 共 占 用 多 少 页 面 (包括 已 经 分 配给 叶子 节点 段 或 者 非 叶子 节点 段 但 

是 尚未 使 用 的 页 面 )。 

) 9 n diff pfxNN : 表示 对 应 的 索引 列 不 重复 的 值 有 多 少 。 其 中 的 NN 长 得 有 点 儿 怪 呀 ， 
它 表示 只 意思 呢 ? 其 实 NN 可 以 被 替换 为 01、02、03…… 这 样 的 数字 。 比 如 对 于 idx_ 
key_part 来 说 : 

时 n_diff pfx01 表示 的 是 统计 key_partl 这 一 个 列 中 不 重复 的 值 有 多 少 ， 

四 n_dif pfx02 表 示 的 是 统计 key partl 、key _part2 这 两 个 列 组 合 起 来 后 不 重复 的 值 有 多 少 ; 

中 n_diff_pfx03 表示 的 是 统计 key_partl、key_part2、key part3 这 3 个 列 组 合 起 来 后 不 
重复 的 值 有 多 少 ; 

中 n_diff pfx04 表示 的 是 统计 key_partl 、key_part2、key part3、 id 这 4 个 列 组 合 起 来 
后 不 重复 的 值 有 多 少 。 


这 里 需要 注意 的 是 ， 对 于 普通 的 二 级 索引 ， 并 不 能 保证 它 的 索引 列 值 是 唯一 的 比 

如 对 于 idx keyl 来 说 ，keyl 列 就 可 能 有 很 多 值 重复 的 记录 . 此 时 只 有 在 索引 列 的 基础 

| 上 上 加 上 主键 ， 才 可 以 区 分 两 条 索引 列 值 都 一 样 的 二 级 索引 记录 。 对 于 主键 和 唯一 二 级 索 
全: 引 则 没有 这 个 问题 ， 它们 本 身 就 可 以 保证 索引 列 的 值 是 不 重复 的 ， 所 以 也 不 需要 再 统计 
小 贴 二 一 饥 在 索引 列 后 加 上 主键 值 后 的 不 重复 值 有 多 ， 少 。 比 如 前 文 的 idx keyl 有 n _diff pfx01 
和 n diff pfx02 两 个 统计 沁 ， 其 中 的 n_diff pfx02 表示 的 就 是 统计 keyl 和 id 这 两 个 列 组 

合 起 来 不 重复 的 值 有 多 少 ; 而 uk_key2 却 只 有 n_diff pfx01 一 个 统计 项 ， 该 统计 项 表示 

的 就 是 key2 列 不 重复 的 值 有 多 少 . . 





步骤 3. 在 计算 某 些 索 引 列 中 包含 多 少 个 不 重复 的 值 时 ， 需要 对 一 些 叶 子 节点 页 面 进行 采 
样 。sample size 和 了 采样 的 页 面 数 量 是 多 少 。 


sh 引 来 说 ， 需要 采样 的 页 面 数 量 是 innodb stats_persistent sample ， 

| pages x 索引 中 包含 的 列 的 个 数 ， 当 需 要 采样 的 页 面 数 量 大 于 该 索引 的 叶子 节点 的 数量 

小 贴 十 ”时 ， 那 么 所 有 的 叶子 节点 地 需要 被 采样 a ee ed 
sample_size 列 的 值 可 能 是 不 同 的 。 


13.2.3 ”定期 更 新 统计 数据 


随 着 我 们 不 断 对 表 进 行 增删 改 操 作 ， 表 中 的 数据 也 一 一 直 在 变化 。innodb table _stats 和 innodb 
index_stats 表 中 的 统计 数据 是 不 是 也 应 该 跟着 变化 呢 ? 当然 要 变 了 ， 如 果 不 变 ， MySQL 优化 














216 第 13 章 ， 兵 马 未 动 , 粮草 先行 __InnoDB 统计 数据 是 如 何 收集 的 


器 计算 出 的 成 本 可 就 很 不 准确 了 。 设 计 MySQL 的 大 叔 提 供 了 下 面 两 种 更 新 统计 数据 的 方式 。 

e@ 开启 innodb stats auto _recalc 

系统 变量 innodb stats_auto recalc 决定 了 服务 器 是 否 自动 重新 计算 统计 数据 。 它 的 默认 值 
是 ON， 也 就 是 该 功能 默认 是 开启 的 。 每 个 表 都 维护 了 一 个 变量 ， 该 变量 记录 着 对 该 表 进 行 
增删 改 的 记录 条 数 。 如 果 发 生变 动 的 记录 数量 超过 了 表 大 小 的 10%， 并 且 自 动 重 新 计算 统计 
数据 的 功能 是 打开 的 ， 那 么 服务 器 会 重新 计算 一 次 统计 数据 ， 并 且 更 新 innodb_table_stats 和 
innodb index stats 表 。 不 过 自动 重新 计算 统计 数据 的 过 程 是 异步 发 生 的 ， 也 就 是 即使 表 中 变动 
的 记录 数 超过 了 10%， 可 能 也 不 会 立即 自动 重新 计算 统计 数据 ， 因 为 存在 一 定 的 延迟 。 

再 一 次 强调 ，InnoDB 默认 以 表 为 单位 来 收集 和 存储 统计 数据 。 我 们 也 可 以 单独 为 某 个 表 
设置 是 否 自 动 重新 计算 统计 数据 的 属性 。 设 置 方式 就 是 在 创建 或 修改 表 时 ， 通 过 指定 STATS __ 
AUTO RECALC 属性 来 指明 是 否 为 这 个 表 自 动 重新 计算 统计 数据 : 

中 CREATE TABLE 表 名 (...) Engine = InnoDB, STATS AUTO RECALC = (1|0); 
四 ALTER TABLE 表 名 Engine 二 InnoDB, STATS_AUTO RECALC = (1|0); 

当 STATS AUTO RECALC = 1 时， 表明 想 让 该 表 自 动 重新 计算 统计 数据 ; 当 STATS_ 
AUTO RECALC = 0 时 ， 表 明 不 想 让 该 表 自 动 重 新 计算 统计 数据 。 如 果 在 创建 表 时 未 指定 
STATS AUTO RECALC 属性 ， 则 默认 采用 系统 变量 innodb_stats_auto_recalc 的 值 作为 该 属性 的 值 。 

@ 手动 调用 ANALYZE TABLE 语句 来 更 新 统计 信息 

我 们 也 可 以 手动 调用 ANALYZE TABLE 语句 重新 计算 统计 数据 。 比 如 下 面 的 语句 就 是 用 
来 更 新 single table 表 的 统计 数据 : 

mysql> ANALYZE TABLE single table; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 + 
| Table | Op | Msg _ type | Msg_ text | 


| xiaohaizi.single table | analyze | status | OK | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
1 row in set (0.08 sec) 


需要 注意 的 是 ，ANALYZE TABLE 语句 会 立即 重新 计算 统计 数据 ， 也 就 是 这 个 过 程 是 同 
步 的 。 在 表 中 索引 较 多 或 者 采样 页 面 特别 多 时 ， 这 个 过 程 可 能 会 比较 慢 。 


13.2.4 手动 更 新 innodb table _stats 和 innodb index _stats 表 


其 实 innodb table stats 和 innodb index stats 表 与 普通 的 表 别 无 二 致 ， 我 们 也 能 对 它们 执 
行 增 删改 查 操作 。 这 也 就 意味 着 我 们 可 以 手动 更 新 某 个 表 或 者 索引 的 统计 数据 。 比 如 ， 我 们 想 
更 改 single_table 表 中 关于 行 数 的 统计 数据 ， 可 以 按照 下 面 的 步骤 进行 操作 。 
步骤 1， 更 新 innodb table stats 表 。 
UPDATE innodb table stats 


SET n rows = 1 
WHERE table name = 'single table',; 


步骤 2， 让 MySQL 优化 器 重新 加 载 更 改 后 的 数据 。 
更 新 后 的 innodb table stats 只 是 单纯 地 修改 了 一 个 表 的 数据 。MySQL 优化 器 需要 重新 加 


PO EN ce UT 


2 
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| 
载 更 改过 的 数据 ， 为 此 可 以 运行 下 面 的 命令 : 


FLUSH TABLE single table; 


之 后 在 使 用 SHOW TABLE STATUS 语句 查看 表 的 统计 数据 时 ， 就 看 到 Rows 行 变 为 了 1 。 


13.3 基于 内 存 的 非 永久 性 统计 数据 


= 一 一 一 -me 一 一 


当 把 系统 变量 innodb_stats_persistent 的 值 设置 为 OFF 时 ， 之 后 创建 的 表 的 统计 数据 默认 
束 都 是 非 永久 性 的 了 。 或 者 我 们 在 创建 或 修改 表 时 ， 直接 将 STATS_PERSISTENT 属性 的 值 设 
置 为 0， 那么 该 表 的 统计 数据 就 是 非 永久 性 的 了 。 

与 永久 性 的 统计 数据 不 同 ， 非 永久 性 的 统计 数据 采样 的 页 面 数 量 是 由 系统 变量 innodb_ 
stats_transient_sample_pages 来 控制 的 ， 它 的 默认 值 是 8。 

非 永久 性 的 统计 数据 在 每 次 服务 器 关闭 时 以 及 执行 某 些 操 作 后 会 被 清除 ， 并 在 下 次 访问 表 
时 重新 计算 。 这 样 就 可 能 导致 在 重新 计算 统计 数据 时 得 到 不 同 的 结果 ， 从 而 可 能 生成 经 常 变化 
的 执行 计划 ， 让 用 户 发 异 。 不 过 ， 最 近 的 MySQL 版 本 都 不 怎么 使 用 这 种 基于 内 存 的 非 永久 性 
统计 数据 了 ， 所 以 我 们 也 就 不 深入 啼 明 它 了 。 


13.4 innodb_stats method 的 合用 


oe oe-. * 一 一 一 = 


我 们 知道 ， 索 引 列 中 不 重复 的 值 的 数量 对 于 MySQL 优化 器 十 分 重要 ， 通 过 它 可 以 计算 出 
在 索引 列 中 一 个 值 平 均 重复 多 少 行 。 它 的 应 用 场景 主要 有 两 个 。 

e 单 表 查询 中 的 单 点 扫描 区 间 太 多 。 

比如 在 下 面 的 命令 中 : 


SELECT * FROM tbl_name WHERE key IN {'xxl', ie 


IN 语句 对 应 的 单 点 扫描 区 间 太 多 时 ， 采 用 index dive 的 方式 直接 访问 B+ 树 索引 ， 来 统计 每 
个 单 点 扫描 区 间 对 应 的 记录 的 数量 就 太 耗费 性 能 了 。 所 以 直接 依赖 统计 数据 中 一 个 值 平 均 重复 
多 少 行 来 计算 单 点 扫描 区 间 对 应 的 记录 数量 。 
。 在 执行 连接 查询 时 ， 如 果 有 涉及 两 个 表 的 等 值 匹配 连接 条 件 ， 该 连接 条 件 对 应 的 被 驱 
动 表 中 的 列 又 拥有 索引 时 ， 则 可 以 使 用 ref 访问 方法 来 查询 被 驱动 表 。 
比如 在 下 面 的 语句 中 : 





SELECT * FROM tl JOIN t2 ON tl.column = t2.key WHERE ...; 
| 


假设 12 为 被 驱动 表 ， 在 优化 器 生成 执行 计划 时 ， 查 询 并 没有 真正 执行 。 也 就 是 说 ， 在 真正 执 
行 对 世 表 的 查询 前 ，tl.column 的 值 是 不 确定 的 。 我 们 不 能 使 用 index dive 的 方式 直接 访问 B+ 
树 之 引 ， 来 统计 也 表 索引 的 每 个 单 点 扫描 区 间 对 应 的 记录 数量 。 也 就 是 说 ， 我 们 只 能 依赖 统 
计数 据 中 一 个 值 平均 重复 多 少 行 来 计算 单 点 扫描 区 间 对 应 的 记录 数量 。 
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在 统计 索引 列 中 不 重复 的 值 的 数量 时 ， 有 一 个 比较 棘手 的 问题 是 : 当 索 引 列 中 出 现 NULL 
值 时 该 怎么 办 ? 比如 ， 某 个 索引 列 的 内 容 是 下 面 这 样 的 : 


此 时 在 计算 这 个 col 列 中 不 重复 的 值 的 数量 时 ， 就 存在 下 面 的 分 歧 。 
@e 有 人 认为 NULL 值 代表 一 个 未 确定 的 值 ， 所 以 设计 MySQL 的 大 叔 才 认为 任何 与 
NULL 值 进行 比较 的 表达 式 的 值 都 为 NULL。 比 如 下 面 这 样 : 


mysql> SELECT 1 = NULL; 


+ 一 一 一 一 一 一 一 一 一 一 1 
| 1 = NULL | 
+ 一 一 一 一 一 一 一 一 一 一 + 
| NULL | 
二 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


mysql> SELECT 1 != NULL; 


+ 一 一 一 一 一 一 一 一 一 一 + 
| 1 != NULL | 
+ 一 一 一 一 一 一 一 一 一 一 + 
| NULL | 
+ 一 一 一 一 一 一 一 一 一 一 一 


1 row in set (0.00 sec) 


mysql> SELECT NULL = NULL; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| NULL = NULL | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| NULL | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 - 


1 row in set (0.00 sec) 


mysql> SELECT NULL != NULL; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| NULL != NULL | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 四 
| NULL | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 - 


1 row in set (0.00 sec) 


wt 


所 以 每 一 个 NULL 值 都 是 独一无二 的 ， 也 就 是 说 在 统计 索引 列 中 不 重复 的 值 的 数量 时 ， 


” 中 LN， 


Ta 
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应 该 把 NULL 值 当 作 一 个 独立 的 值 ， 所 以 col 列 中 不 重复 的 值 的 数量 就 是 4 (分 别 是 1、2 
NULL、NULL 这 4 个 值 )。 
。 有 人 认为 其 实 NULL 值 在 业务 上 就 是 表示 “没有 ”， 因 此 所 有 的 NULL 值 代表 的 意义 是 
一 样 的 。 这 样 一 来 ，col 列 中 不 重复 的 值 的 数量 就 是 3 分 别 是 1、2、NULL 这 3 个 值 )。 
e 有 人 认为 NULL 完全 没有 意义 ， 所 以 在 统计 索引 列 中 不 重复 的 值 的 数量 时 压根 儿 就 不 
能 把 它们 算 进来 ， 所 以 eol 列 中 不 重复 的 值 的 数量 就 是 2 分 别 是 1、2 这 两 个 值 )。 
设计 MySQL 的 大 叔 蛮 贴心 的 ， 他 们 提供 了 一 个 名 为 innodb_stats_ method 的 系统 变量 。 这 
个 值 的 作用 是 ， 在 种 首 路 疾 证 玖 市 涉 生 沉重 的 让 生财 将 “如 何 对 待 NULL 值 ”的 这 口 锅 
甩 给 用 户 。 这 个 系统 变量 有 3 个 候选 值 。 
e nulls equal : 认为 所 有 NULL 值 都 是 相等 的 。 这 个 值 也 是 innodb stats method 的 默认 值 。 
如 果 某 个 索引 列 中 的 NULL 值 特别 多 ， 这 种 统计 方式 会 让 查询 优化 器 认为 某 个 列 中 一 个 
值 的 平均 重复 次 数 特别 多 ， 所 以 倾向 于 不 使 用 索引 进行 访问 。 
e nulls_ unequal : 认为 所 有 NULL 值 都 是 不 相等 的 。 
如 果 某 个 索引 列 中 的 NULL 值 特别 多 ， 这 种 统计 方式 会 让 查询 优化 器 认为 某 个 列 中 一 个 
值 的 平均 重复 次 数 特别 少 ， 所 以 倾向 于 使 用 索引 进行 访问 。 
e nulls ignored : 直接 把 NULL 值 忽略 掉 。 
反正 这 口 锅 是 甩 给 用 户 了 。 当 选 定 了 innodb _stats_method 值 之 后 ， 查 询 优 化 器 即使 选择 了 
不 是 最 优 的 执行 计划 ， 那 也 与 设计 MySQL 的 大 叔 没关系 了 。 
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InnoDB 以 表 为 单位 来 收集 统计 数据 。 这 些 统计 数据 可 以 是 基于 磁盘 的 永久 性 统计 数据 ， 
也 可 以 是 基于 内 存 的 非 永久 性 统计 数据 。 

innodb stats persistent 控制 着 服务 器 使 用 永久 性 统计 数据 还 是 非 永 久 性 统计 数据 ，innodb_ 
stats_persistent_sample_pages 控制 着 永久 性 统计 数据 的 采样 页 面 数量 ，innodb stats_transient_ 
sample pages 控制 着 非 永久 性 统计 数据 的 采样 页 面 数 量 ，innodb_stats_auto_recalc 控制 着 是 否 
自动 重新 计算 统计 数据 。 ] 

我 们 可 以 在 创建 和 修改 表 时 通过 指定 STATS PERSISTENT、STATS _AUTO RECALC、 
STATS_SAMPLE_PAGES 的 值 来 控制 收集 统计 数据 时 的 一 些 细节 。 

innodb stats_ method 决定 着 在 统计 某 个 索引 列 中 不 重复 的 值 的 数量 时 如 何 对 符 NULL 值 。 
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从 本 质 上 来 说 ，MySQL 其 实 就 是 一 个 软件 ， 设 计 MySQL 的 大 叔 并 不 能 要 求 使 用 这 个 软 
件 的 人 都 是 数据 库 高 手 ， 就 像 我 不 能 要 求 在 座 的 各 位 在 阅读 本 书 时 都 已 经 学 会 了 里 面 的 知识 一 
样 。 都 学 会 了 的 话 谁 还 会 看 这 本 书 呢 ， 难 道 是 为 了 精神 上 受 感化 ? ! 

也 就 是 说 ， 我 们 无 法 避免 某 些 同 学 编写 一 些 执行 起 来 十 分 耗费 性 能 的 语句 。 即 使 是 这 样 ， 
设计 MySQL 的 大 叔 还 是 依据 一 些 规则 ， 竟 尽 全 力 地 把 这 些 很 糟糕 的 语句 转换 成 某 种 可 以 高 效 
执行 的 形式 ， 这 个 过 程 也 可 以 称 为 查询 重 写 《就 是 人 家 觉得 你 写 的 语句 不 好 ， 自 己 再 重 写 一 
遍 )。 本 章 将 详细 踪 曙 一 些 比 较 重 要 的 重 写 规则 。 


14.1 条 件 化 简 


我 们 编写 的 得 询 语 句 中 的 搜索 条 件 本 质 上 是 表达 式 。 这 些 表 达 式 可 能 比较 复杂 ， 可 能 无 法 
高 效 地 执行 ，MySQL 优化 器 会 为 我 们 简化 这 些 表 达 式 。 为 了 方便 大 家 理解 ， 后 面 在 举例 子 时 
都 使 用 诸如 a、b、c 之 类 的 简单 字母 代表 茶 个 表 的 列 名 。 


14.1.1 移 除 不 必要 的 括号 
有 时 表达 式 中 有 许多 无 用 的 括号 ， 比 如 下 面 这 样 : 


SELECT * FROM (tl, (t2, t3)) WHERE tl.a=t2.a AND t2.b=t3.b; 
优化 器 会 把 语句 中 不 必要 的 括号 移 除 掉 ， 移 除 后 的 效果 如 下 所 示 : 


SELECT * FROM tl1, t2, t3 WHERE tl1.a=t2.a AND t2 .b=t3.b; 


14.1.2 ”音量 传递 
有 时 茶 个 表达 式 是 茶 个 列 和 茶 个 常量 的 等 值 匹配 ， 比 如 下 面 这 样 : 


a= 5 


当 使 用 AND 操作 符 将 这 个 表达 式 和 其 他 涉及 列 a 的 表达 式 连接 起 来 时 ， 可 以 将 其 他 表达 
式 中 a 的 值 蔡 换 为 5， 比 如 下 面 这 个 表达 式 : 


a= 5 RNDDb>a 
就 可 以 被 转换 为 : 


a= 5 ANDb>5 
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14.1.3” 移 除 没 用 的 条 件 


对 于 一 些 明 显 的 永远 为 TRUE 或 者 FALSE 的 表达 式 ， 优 化 器 会 将 它们 移 除 掉 。 比 如 下 面 
这 个 表达 式 ; 


(a < 1 AND b = b) OR (a= 6 OR 5 {= 5) 


很 明显 ，b=b 这 个 表达 式 永 远 为 TRUE，5 != 5 这 个 表达 式 永远 为 FALSE,， 所 以 简化 后 的 
表达 式 就 是 下 面 这 样 : 


(a < 1 AND TRUE) OR (a = 6 OR| FALSE) 


这 个 表达 式 可 以 继续 被 简化 为 a<1 OR a = 6。 
14.1.4 ”表达 式 计算 | 
在 查询 执行 之 前 ， 如 果 表 达 式 中 只 包含 常量 的 话 ， 它 的 值 会 被 先 计 算出 来 。 比 如 下 面 这 个 : 


a= 5+1 
因为 5 十 1 这 个 表达 式 只 包含 常量 ， 所 以 就 会 被 化 简 成 a = 6。 


但 是 这 里 需要 注意 的 是 ， 如 果 某 个 列 并 不 是 以 单独 的 形式 作为 表达 式 的 操作 数 ， 比如 出 现 
企 函 数 中 ， 或 者 出 现在 某 个 更 复杂 的 表达 式 中 ， 就 像 下 面 这 样 : 


ABS(a) > 5 


或 者 





-a < -8 


优化 器 是 不 会 尝试 对 这 些 表达 式 进行 化 简 的 。 前 文 说 过 ， 在 搜索 条 件 中 ， 只 有 索引 列 和 常数 使 
用 东 些 运算 符 连接 起 来 ， 才 可 能 形成 合适 的 范围 区 间 来 减少 需要 扫描 的 记录 数量 。 所 以 ， 最 好 
让 索引 列 以 单独 的 形式 出 现在 搜索 条 件 表达 式 中 。 


14.1.5 HAVING 子 句 和 WHERE 子 句 的 合并 





如 果 碍 询 语句 中 没有 出 现 诸如 SUM、MAX 这 样 的 聚集 函数 以 及 GROUP BY 子 句 ， 查 询 
优化 器 就 把 HAVING 子 句 和 WHERE 子 句 合 并 起 来 。 


14.1.6 ”常量 表 检 测 


改 计 MySQL 的 大 叔 觉 得 下 面 这 两 种 类 型 的 查询 运行 得 特别 快 。 
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e@ 类 型 1: 查询 的 表 中 一 条 记录 都 没有 ， 或 者 只 有 一 条 记录 。 






A 


索 条 件 来 查询 某 个 表 。 
设计 MySQL 的 大 叔 觉得 这 两 种 查询 花费 的 时 间 特 别 少 ， 少 到 可 以 忽略 ， 所 以 也 把 通过 这 
两 种 方式 查询 的 表 称 为 常量 表 (constant table)。 查 询 优 化 器 在 分 析 一 个 查询 语句 时 ， 首 先 执行 
常量 表 查 询 ， 然 后 把 查询 中 涉及 该 表 的 条 件 全 部 蔡 换 成 常数 ， 最 后 再 分 析 其 余 表 的 查询 成 本 。 
比如 下 面 这 个 查询 语句 : 
SELECT * FROM tablel INNER JOIN table2 


ON tablel .column] = table2 .column2 
WHERE tablel .primary key = 1; 


很 明显 ， 这 个 查询 可 以 使 用 主键 和 常量 值 的 等 值 匹配 来 查询 tablel 表 。 也 就 是 说 ， 在 这 个 
查询 中 tablel 表 相 当 于 常量 表 。 在 分 析 针 对 table2 表 的 查询 成 本 之 前 ， 就 会 执行 针对 tablel 表 
的 查询 ， 在 得 到 查询 结果 后 把 原 查 询 中 涉及 tablel 表 的 条 件 都 蔡 换 掉 。 也 就 是 说 ， 上 面 的 查询 
语句 会 被 转换 成 下 面 这 样 : 


SELECT tablel 表 记录 各 个 字段 的 常量 值 ，table2.* FROM tablel INNER JOIN table2 
ON tablel 表 column1 列 的 常量 值 = table2.column2; 


14.2 ”外 连接 消除 


前 文 说 过 ， 内 连接 的 驱动 表 和 被 驱动 表 的 位 置 可 以 相互 转换 ， 而 左 〈 外 ) 连接 和 右 〈 外 ) 
连接 的 驱动 表 与 被 驱动 表 是 固定 的 。 这 就 导致 内 连接 可 能 通过 优化 表 的 连接 顺序 来 降低 整体 的 
查询 成 本 ， 而 外 连接 却 无 法 优化 表 的 连接 顺序 。 为 了 故事 的 顺利 发 展 ， 我 们 还 是 把 之 前 介绍 连 
接 原 理 时 使 用 的 {和 也 表 请 出 来 。 考 虑 到 大 家 可 能 已 经 态 记 了 ， 这 里 再 看 一 下 这 两 个 表 的 结构 : 

CREATE TABLE tl ( 

ml int, 


nl char (1) 
) Engine=InnoDB, CHARSET=utf8; 


CREATE TABLE t2 ( 
m2 int, 


n2 char(1) 
) Engine=InnoDB, CHARSET=utf8; 


为 了 唤醒 大 家 的 记忆 ， 我 们 再 把 这 两 个 表 中 的 数据 展示 一 下 : 


mysql> SELECT * FROM 七 1; 








14.2 外 连接 消除 ”223 
C—O 


3 rows in set (0.00 Sec) 


mysql> SELECT * FROM t2; 


+ 一 一 一 一 一 + 一 一 一 一 一 + 
| m2 | n2 | 
+— 一 一 一 一 一 +~—- 一 一 一 一 + 
| 2 | hb | 
| 由 | 让 | 
| 41d | 
+ 一 一 一 一 一 + 一 一 一 一 一 + 


3 rows in set (0.00 sec) 


前 文 说 过 ， 外 连接 和 内 连接 的 本 质 区 别 就 是 : 对 于 外 连接 的 驱动 表 的 记录 来 说 ， 如 果 无 
法 在 被 驱动 表 中 找到 匹配 ON 子 句 中 过 滤 条 件 的 记录 ， 那么 该 驱动 表 记 录 仍 然 会 被 加 入 到 结 
采集 中 ， 对 应 的 被 驱动 表 记 录 的 各 个 字段 使 用 NULL 值 填充 ， 而 内 连接 的 驱动 表 的 记录 如 果 
无 法 在 被 驱动 表 中 找到 匹配 ON 于 句 中 过 滤 条 件 的 记录 ， 那么 该 驱动 表 记 录 会 被 舍弃 。 查 询 


效果 就 是 下 面 这 样 : 

mysql> SELECT * FROM tl INNER JOIN t2 ON tl.ml = t2.m2; 
+ 一 一 一 一 一 一 直 一 一 一 一 一 一 直 一 一 一 一 一 一 十 一 一 一 一 一 一 学 

| ml | nl Im 1n2 | 

+ 一 一 -一 ~- +-- 一 -一 + 一 一 一 -一 + 一 一 -一 + 

| 21b | 2 | b | 

| 3 | | 3 1 C | 

+ 一 一 一 -~ +-~~-—- +--- 一 一 一 + 一 一 -~ 一 一 十 

2 rows in set (0.00 sec) | 


mysql> SELECT * FROM tl LEFT JOIN t2 ON tl.ml = t2.m2; 


+ 一 一 一 一 一 + 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 二 
| ml | nl | m2 | n2 | 
+ 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 +— 一 一 一 一 一 - 
| 2 | b | 2 | Pb | 
| “ 草地 -~ | 是 息 | 
| 1 | NULL | NULL | 
十 一 -~ 一 = + 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 ~ 


3 rows in set (0.00 Sec) 


| 
对 于 上 面 例子 中 的 左 〈 外 ) 连接 来 说 ， 由 于 驱动 表 tl 中 ml=1、 nl='a' 的 记录 无 法 在 被 驱 


动 表 t2 中 找到 符合 ON 子 句 条 件 tl.ml = 也.m2 的 记录 ， 所 以 就 直接 把 这 条 记录 加 入 到 结果 集 
中 ， 对 应 的 世 表 的 m2 和 n2 列 的 值 都 设置 为 NULL. 


[ _ 


Se 右 (外) 连接 和 左 (外 ) 连接 其 实 只 在 驱动 表 的 选取 方式 上 不 同 ， 在 其 他 方面 都 一 
笑料 ， 所 以 优化 器 会 和 把 万 (外 ) 连接 查询 转换 成 左 (外 ) 连接 查询 。 后面 就 不 再 踪 劝 右 ， 


小 贴 士 (外 ) 连接 了 . 


天 
| 


# 


人 
to» rs J 


我 们 知道 ，WHERE 子 句 的 杀伤 力 比较 大 ， 凡 是 不 符合 WHERE 子 句 中 条 件 的 记录 都 不 
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会 参与 连接 。 只 要 我 们 在 WHERE 子 句 的 搜索 条 件 中 指定 “被 驱动 表 的 列 不 为 NULL” 的 搜 
索 条 件 ， 那 么 外 连接 中 在 被 驱动 表 中 找 不 到 符合 ON 子 句 条 件 的 驱动 表 记 录 也 就 从 最 后 的 结 
果 集 中 被 排除 了 。 也 就 是 说 ， 在 这 种 情况 下 ， 外 连接 和 内 连接 也 就 没有 什么 区 别 了 ! 比如 下 
面 这 个 查询 : 


mysql> SELECT * FROM tl LEFT JOIN t2 ON tl.ml = t2.m2 WHERE t2.n2 IS NOT NULL; 


+ 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 
| ml | nl | m2 | n2 | 
+ 一 一 一 一 一 一 + 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 
| 2 | b | 2 证 | 
| | 从 | 入 | 
+ 一 一 一 一 一 一 十 一 一 -~ 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 


2 rows in set (0.01 sec) 


由 于 指定 被 驱动 表 世 的 n2 列 不 允许 为 NULL， 所 以 上 面 的 t 和 了 世 表 的 左 ( 外 ) 连接 查询 与 
内 连接 查询 是 一 样 的 。 当 然 ， 我 们 也 可 以 不 用 显 式 指定 被 驱动 表 的 某 个 列 符合 IS NOT NULL 
搜索 条 件 ， 只 要 隐 含 地 有 这 个 意思 就 行 了 。 比 如 下 面 这 样 : 


mysql> SELECT * FROM tl LEFT JOIN t2 ON tl.ml = t2.m2 WHERE t2.m2 = 2; 


+ 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 
| ml | nl | m2 | n2 | 
+ 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 - 
| “全 区 . | 2 | b | 
+ 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 -一 一 一 + 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


在 这 个 例子 中 ， 我 们 在 WHERE 子 句 中 指定 了 被 驱动 表 世 的 m2 列 等 于 2， 也 就 相当 于 间 
接地 指定 了 m2 列 不 为 NULL 值 ， 所 以 上 面 这 个 左 〈 外 ) 连接 查询 其 实 与 下 面 这 个 内 连接 查询 
是 等 价 的 : 


mysql> SELECT * FROM tl INNER JOIN t2 ON til.ml = t2.m2 WHERE t2.m2 = 2; 


+ 一 一 一 一 一 +- 一 一 一 一 一 +----- 一 + 一 一 一 一 一 一 四 
| ml | nl | m2 | n2 | 
+ 一 一 一 一 一 一 +- 一 一 一 一 一 + 一 一 一 一 一 + 一 一 一 一 一 一 二 
| 党 业 凯 | 省 | 
+ 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 二 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


我 们 把 这 种 在 外 连接 查询 中 ， 指 定 的 WHERE 子 句 中 包含 被 驱动 表 中 的 列 不 为 NULL 值 
的 条 件 称 为 空 值 拒绝 (rejectNULL)。 在 被 驱动 表 的 WHERE 子 句 符合 空 值 拒绝 的 条 件 后 ， 外 
连接 和 内 连接 可 以 相互 转换 。 这 种 转换 带 来 的 好 处 就 是 优化 器 可 以 通过 评估 表 的 不 同 连 接 顺 序 
的 成 本 ， 选 出 成 本 最 低 的 连接 顺序 来 执行 查询 。 


eo 


14.3 子 查询 优化 


ee- a 


Ed 一 “ 


本 章 的 主题 本 来 是 逻 旷 MySQL 优化 器 是 如 何 处 理子 查询 的 ， 但 还 是 担心 好 多 同学 连 子 查 
询 的 语法 都 没 掌握 全 ， 所 以 我 们 就 先 踪 鹃 呀 什么 是 子 查询 〈 当 然 不 会 面面俱到 ， 而 只 是 说 个 
大 概 )， 然 后 再 啼 明 子 查询 优化 的 事 儿 。 


SY CA 
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14.3.1 子 查询 语法 








套用 《大 话 西 游 )》 电 影 中 的 一 句 台 词 “ 人 是 人 他 妈 生 的 ， 妖 是 妖 他 妈 生 的 ”"”， 就 连 孙 猴子 
都 有 妈妈 一 一 石头 人 。 孕 妇 肚 子 里 的 是 她 的 孩子 。 类 似 地 ， 在 一 个 查询 语句 中 的 某 个 位 置 也 可 
以 有 另 一 个 查询 语句 ， 这 个 出 现在 某 个 查询 语句 的 某 个 位 置 中 的 查询 就 称 为 子 查 询 (也 可 以 称 
它 为 宝宝 查询 ) ， 那 个 充当 “妈妈 ”角色 的 查询 也 称 为 外 层 查询 。 不 像 人 类 怀孕 时 宝宝 只 在 妈 
妈 肚 子 里 ， 子 查询 可 以 在 一 个 外 层 查询 的 各 种 位 置 出 现 。 来 看 下 面 各 种 情况 。 

e@ 在 SELECT 子 句 中 | 

也 就 是 平常 说 的 查询 列表 ， 比 如 下 面 这 样 : 





mysql> SELECT (SELECT ml FROM tl] LIMIT 1); 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| (SELECT ml FROM t1 LIMIT 1) | 
+4 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| 1 | 


1 row in Set (0.00 sec) 


其 中 (SELECT ml FROM tl LIMIT 1) 就 是 子 查询 。 





e 在 FROM 子 句 中 | 
比如 : | 
| 
SELECT m, n FROM (SELECT m2 + 1 AS m, n2 AS n FROM t2 WHERE m2 2 YAS ts 
+ 一 一 一 一 一 一 十 一 一 一 一 一 一 十 
| m | n | 
+ 一 一 一 一 一 一 + 一 -一 一 一 一 = 
| 各. | | 
| 5 |1a | 
+ 一 一 一 一 一 一 + 一 一 一 一 一 一 - 


2 rows in set (0.00 sec) 


这 个 例子 中 的 子 查询 是 (SELECT m2 + 1 AS m, n2 AS n FROM t2 WHERE m2 > 2)， 它 的 特 
别 之 处 是 出 现在 了 FROM 子 句 中 。FROM 子 句 里 面 不 是 存放 要 查询 的 表 的 名 称 么 ， 这 里 放 进 
来 一 个 子 查询 是 个 什么 鬼 ? 其 实 这 里 可 以 把 子 查询 的 查询 结果 当 作 一 个 表 。 子 查询 后 边 的 AS 
t 表明 这 个 子 查 询 的 结果 就 相当 于 一 个 名 称 为 t 的 表 ， 这 个 名 为 t 的 表 的 列 就 是 子 查询 结果 中 
的 列 。 比 如 上 面 这 个 例子 中 ， 表 t 就 有 两 个 列 : m 列 和 n 列 。 这 个 放 在 FROM 子 句 中 的 子 查 询 
在 逻辑 上 相当 于 一 个 表 ， 但 又 与 平常 使 用 的 表 有 点 儿 不 一 样 。 设 计 MySQL 的 大 叔 把 这 种 放 在 
FROM 子 句 后 面 的 子 查询 称 为 派生 表 。 

e@ 在 WHERE 或 ON 子 句 的 表达 式 中 

我 们 最 常 使 用 子 查询 的 方式 是 将 子 查询 放 到 外 层 查 询 的 WHERE 子 句 或 者 ON 子 句 的 表达 
式 中 。 比 如 下 面 这 样 : 








mysql> SELECT * FROM tl WHERE ml IN (SELECT m2 EROM t2); 





ee 
ee 
= 一 ee 


A * 
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2 rows in set (0.00 sec) 


这 个 查询 表明 我 们 想 将 (SELECT m2 FROM t2) 这 个 子 查询 的 结果 作为 外 层 查询 的 IN 语句 
参数 。 上 面 整个 查询 语句 的 意思 是 : 我 们 想 找 tl 表 中 的 某 些 记录 ， 这 些 记 录 的 ml 列 的 值 能 在 
t2 表 的 m2 列 找到 匹配 的 值 。 

e 在 ORDER BY 子 句 中 

虽然 语法 支持 ， 但 没 喻 意义， 这 里 不 展开 介绍 。 ' 

e GROUP BY 子 句 中 

虽然 语法 支持 ， 但 没 哈 意义 ， 这 里 不 展开 介绍 。 : 


1. 按 返回 的 结果 集 区 分 子 查询 
因为 子 查询 本 身 也 是 一 个 查询 ， 所 以 可 以 按照 它们 返回 的 不 同 结果 集 类 型 而 把 这 些 子 查 询 


aa 


分 为 不 同 的 类 型 。 
e 标量 子 查询 : 那些 只 返回 一 个 单一 值 的 子 查 询 称 为 标量 子 查 询 。 
比如 下 面 这 样 : 
SELECT (SELECT ml FROM tl LIMIT 1); 
或 者 下 面 这 样 : 
SELECT * FROM tl WHERE ml = (SELECT MIN (m2) FROM t2); 


这 两 个 查询 语句 中 的 子 查询 都 返回 一 个 单一 的 值 〈 也 就 是 一 个 标量 )。 这 些 标量 子 碍 询 可 
以 作为 一 个 单一 值 或 者 表达 式 的 一 部 分 出 现在 查询 语句 的 各 个 地 方 。 
e@ 行 子 查询 : 顾名思义 ， 就 是 返回 一 条 记录 的 子 查 询 ， 不 过 这 条 记录 需要 包含 多 个 列 
(如 果 只 包含 一 个 列 ， 就 是 标量 子 查 询 )。 
比如 下 面 这 样 : 


SELECT * FROM tl WHERE (ml, ni) = (SELECT m2, n2 FROM t2 LIMIT 1); 


其 中 (SELECT m2, n2 FROM {2 LIMIT 1) 就 是 一 个 行 子 查询 。 整 条 语句 的 含义 就 是 从 tl 表 
中 找 一 些 记 录 ， 这 些 记录 的 ml 和 nl 列 分 别 等 于 子 查 询 结果 中 的 m2 和 n2 列 。 
e 列子 查询 : 就 是 查询 出 一 个 列 的 数据 ， 不 过 这 个 列 的 数据 需要 包含 多 条 记录 (如果 只 
包含 一 条 记录 ， 就 是 标量 子 查询 )。 
比如 下 面 这 样 : 


SELECT * FROM tl WHERE ml IN (SELECT m2 FROM t+2);，; 


其 中 (SELECT m2 FROM t2) 就 是 一 个 列子 查询 ， 表 明 将 查询 出 的 世 表 的 m2 列 的 值 作为 
外 层 查 询 IN 语句 的 参数 。 

e@e 表 子 查询 : 就 是 子 查 询 的 结果 既 包 含 很 多 条 记录 ， 又 包含 很 多 个 列 。 

比如 下 面 这 样 : 


SELECT * FROM tl WHERE (mL，nl) IN (SELECT m2, n2 FROM +t2); 
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其 中 (SELECT m2, n2 FROM t2) 就 是 一 个 表 子 查询 。 这 里 需要 将 表 子 查询 和 和 行 子 查询 对 


比 一 下 : 行 子 查询 中 使 用 了 LIMIT 1 来 保证 子 查询 的 结果 只 有 一 条 记录 ; 表 子 查询 中 不 需要 这 
个 限制 。 


2.， 按 与 外 层 查询 的 关系 来 区 分 子 查询 
e@ 不 相关 子 查询 
如 采 了 查询 可 以 单独 运行 出 结果 ， 而 不 依赖 于 外 层 查询 的 值 ， 我 们 就 可 以 把 这 个 子 查询 称 


为 不 相关 子 查询 。 前 文 介绍 的 那些 子 查询 全 部 都 可 以 看 作 不 相关 子 查询 。 
e 相关 子 查询 


如 果子 查询 的 执行 需要 依赖 于 外 层 查 询 的 值 ， 我 们 就 可 以 把 这 个 子 查询 称 为 相关 子 查询 。 
比如 : 





SELECT * FROM tl WHERE ml IN (SELECT m2 FROM t2 WHERE nl = n2) ; 


上 述 语句 中 的 子 查询 是 (SELECT m2 FROM tz WHERE nl = n2)， 这 个 子 查 询 中 有 一 个 搜 
索 条 件 是 nl = n2。 由 于 nl 是 表 tl 的 列 ， 也 就 是 外 层 查 询 的 列 ， 也 就 是 说 子 查询 的 执行 需要 
依赖 于 外 层 查询 的 值 ， 所 以 这 个 子 查询 就 是 一 个 相关 子 查询 。 

3. 子 查询 在 布尔 表达 式 中 的 使 用 

大 家 来 看 下 面 这 样 的 子 查询 有 只 意义 ， 


SELECT (SELECT ml FROM tl LIMIT 1); 


貌似 没 喻 意义 ! 我 们 平时 使 用 子 查询 最 多 的 地 方 就 是 把 它 作 为 布尔 表达 式 的 一 部 分 用 在 


WHERE 于 人 句 或 者 ON 子 句 中 的 搜索 条 件 中 。 所 以 这 里 来 总 结 一 下 子 查询 在 布尔 表达 式 中 的 使 


用 场景 。 | 
。 使 用 =、>、<、>=、<=、<>、!=、<=> 作为 布尔 表达 式 的 操作 符 


这 些 操作 符 具体 是 喻 意思 就 不 用 我 多 介绍 了 吧 。 为 了 方便 ， 我 人 ] 把 这 些 操 作 符 称 为 comparison 
operator， 所 以 包含 子 查询 的 布尔 表达 式 看 起 来 就 是 下 面 这 样 : 


操作 数 comparison_operator ( 子 查询 ) 


这 里 的 操作 数 可 以 是 某 个 列 名 ， 或 者 是 一 个 常量 ， 或 者 是 一 个 更 复杂 的 表达 式 ， 甚 至 可 以 
是 男 一 个 子 查 询 。 但 是 需要 注意 的 是 ， 这 里 的 子 查询 只 能 是 标量 子 查询 或 者 行 子 查询 ， 也 就 是 
说 于 查询 的 结果 只 能 返回 一 个 单一 的 值 或 者 只 能 是 一 条 记录 。 比如 下 面 这 样 〈 标 量子 查询 ): 


| 
SELECT * FROM tl WHERE ml < (SELECT MIN (m2) FROM t2) ; 


或 者 下 面 这 样 〈 行 子 查询 ): 
SELECT * FROM tl WHERE (ml, ni)|= (SELECT m2, n2 FROM t2 LIMIT Le 
e [NOT] IN/ANY/SOME/ALL 子 查 询 


对 于 列子 查询 和 表 子 查询 来 说 ， 它 们 的 结果 集中 包含 很 多 条 记录 。 这 些 记录 相当 于 一 个 集 
全 


全 ， 所 以 就 不 能 单纯 地 使 用 comparison_operator 与 另外 一 个 操作 数组 成 布尔 表达 式 了 . MySQL 
通过 下 面 的 语法 来 支持 某 个 操作 数 与 一 个 集合 组 成 一 个 布尔 表达 式 。 
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mg IN 或 者 NOTIN。 上 有 具体 的 语法 形式 如 下 : 
操作 数 【NOT] IN ( 子 查询 ) 


这 个 布尔 表达 式 的 意思 是 ， 判 断 某 个 操作 数 是 否 存在 于 由 子 查询 结果 集 组 成 的 集合 中 。 比 如 
下 面 查询 语句 的 作用 是 找 出 蕊 表 中 的 某 些 记录 ， 这 些 记 录 的 ml 和 nl 列 存在 于 子 查询 的 结果 集中 : 


SELECT * FROM tl WHERE (m1，nl) IN (SELECT m2, n2 FROM t2) ; 
@ ANY/SOME (ANY 和 SOME 表达 的 意思 相同 )。 具 体 的 语法 形式 如 下 : 
操作 数 comparison_operator ANY/SOME ( 子 查询 ) 
这 个 布尔 表达 式 的 意思 是 ， 只 要 在 子 查询 的 结果 集中 存在 一 个 值 ， 某 个 指定 的 操作 数 与 
该 值 通过 comparison_ operator 操作 符 进 行 比较 时 ， 结 果 为 TRUE， 那么 整个 表达 式 的 结果 就 为 
TRUE ; 否则 整个 表达 式 的 结果 就 为 FALSE。 比 如 下 面 这 个 查询 : 


SELECT * FROM tl WHERE ml > AMNY(SELECT m2 FROM t2); 


这 个 查询 的 意思 是 ， 对 于 tl 表 某 条 记录 的 ml 列 的 值 来 说 ， 如 果子 查询 (SELECT m2 FROM 
2) 的 结果 集中 存在 一 个 小 于 ml 列 的 值 ， 那 么 整个 布尔 表达 式 的 值 就 是 TRUE， 否 则 为 
FALSE。 也 就 是 说 ， 只 要 ml 列 的 值 大 于 子 查询 结果 集中 最 小 的 值 ， 整 个 表达 式 的 结果 就 是 
TRUE。 所 以 上 面 的 查询 语句 在 本 质 上 等 价 于 下 面 这 条 得 询 语句 : 


SELECT * FROM tl WHERE ml > (SELECT MIN (m2) FROM t2) ; 


另外 ，=ANY 相当 于 判断 子 查询 结果 集中 是 否 存在 某 个 值 等 于 给 定 的 操作 数 ， 它 的 含义 和 
IN 是 相同 的 。 
mg ALL。 具 体 的 语法 形式 如 下 : 


操作 数 comparison_operator ALL ( 子 查询 ) 


这 个 布尔 表达 式 的 意思 是 ， 某 个 指定 的 操作 数 与 该 子 得 询 结果 集中 所 有 的 值 通过 comparison_ 
operator 操作 符 进行 比较 时 ， 结 果 都 为 TRUE， 那 么 整个 表达 式 的 结果 就 为 TRUE ; 否则 整个 
表达 式 的 结果 就 为 FALSE。 比 如 下 面 这 个 查询 : 


SELECT * FROM tl WHERE ml > ALL(SELECT m2 FROM t+2); 


这 个 查询 的 意思 是 ， 对 于 tl 表 某 条 记录 的 ml 列 的 值 来 说 ， 如 果子 查询 (SELECT m2 FROM 
名) 的 结果 集中 的 所 有 值 都 小 于 ml 列 的 值 ， 那 么 整个 布尔 表达 式 的 值 就 是 TRUE， 否 则 为 
FALSE。 也 就 是 说 ， 只 要 ml 列 的 值 大 于 子 查 询 结果 集中 最 大 的 值 ， 整 个 表达 式 的 结果 就 是 
TRUE。 所 以 上 面 的 查询 语句 在 本 质 上 等 价 于 下 面 这 条 查询 语句 : 


SELECT * FROM tl WHERE ml > (SELECT MAX (m2) FROM t2); 


、 大 家 如 果 觉 得 ANY 和 ALL 有 点 滨 ， 请 多 看 几 遍 . 
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@ EXISTS 子 查询 
有 时 我 们 仅仅 需要 判断 子 查询 的 结果 集中 是 否 有 记录 ， 而 不 在 乎 它 的 记录 具体 是 啥 。 此 时 
可 以 把 EXISTS 或 者 NOT EXISTS 放 在 子 查询 语句 的 前 面 ， 就 像 下 面 这 样 


[NOT] EXISTS ( 子 查询 ) 
来 看 下 面 这 个 例子 : 


SELECT * FROM tl WHERE EXISTS (SELECT 1 FROM t2) ; 


对 于 子 查询 (SELECT 1 FROM t2) 来 说 ， 我 们 并 不 关心 这 个 子 查 询 最 后 查询 出 的 结果 到 底 
是 什么 ， 所 以 查询 列表 里 填 *、 某 个 列 名 ， 或 者 其 他 内 容 都 无 所 谓 。 我 们 真正 关心 的 是 子 查询 
的 结果 集中 是 否 存在 记录 。 也 就 是 说 ， 人 要 (SELECT 1 FROM t2) 查询 的 结果 集中 有 记录 ， 那 
么 整个 EXISTS 表达 式 的 结果 就 为 TRUE。 

4. 子 查 询 语法 注意 事项 

e 子音 询 必 须 用 小 括号 括 起 来 。 

个 用 小 括号 括 起 来 的 子 查询 是 非法 的 ， 比 如 下 面 这 样 ; 


mysql> SELECT SELECT ml FROM t]l; 





ERROR 1064 (42000) : You have an error in your SOL Syntax; check the manual that corresponds 
to your MySQL server version for the right syntax to use near :SELECT ml FROM tl' at': line 1 


e 在 SELECT 子 句 中 的 子 查询 必须 是 标量 子 查询 。 
如 果子 查询 结果 集中 有 多 个 列 或 者 多 个 行 ， 则 都 不 允许 放 在 SELECT 子 句 中 。 比 如 下 面 
这 样 就 是 非法 的 : 


mysql> SELECT (SELECT ml, nl FROM t1); 





ERROR 1241 (21000): Operand shobld contain 1 column (s) 


e 要 想得到 标量 子 查 询 或 者 行 子 查询 ， 但 又 不 能 保证 子 查询 的 结果 集 只 有 一 条 记录 时 ， 
应 该 使 用 LIMIT 1 语句 来 限制 记录 数量 。 

e 对 于 [NOT] IN/ANY/SOME/ALL 子 查询 来 说 ， 子 查询 中 不 允许 有 LIMIT 语句 。 

比如 下 面 这 样 是 非法 的 : 


mysql> SELECT * FROM tl WHERE ml IN (SELECT * FROM t2 LIMIT 2); 


ERROR 1235 (42000) : 
subquery' 


为 喻 不 合法 ? 人 家 就 这 么 规定 的 ， 不 解释 ! 可 能 以 后 的 版 本 会 支持 吧 。 正 因为 [NOT] IN/ANY/ 
SOME/ALL 于 僵 询 不 支持 LIMIT 语句 ， 所 以 在 子 查询 中 使 用 ORDER BY 子 句 、DISTINCT 子 
名， 以 及 没有 聚集 函数 和 HAVING 子 句 的 GROUP BY 子 句 是 毫 无 意义 的 。 


了 得 询 的 结果 其 实 相当 于 一 个 集合 ， 集 合 里 的 值 是 否 排序 一 点 儿 都 不 重要 。 比 如 下 面 这 个 
语句 中 的 ORDER BY 子 句 简直 就 是 画蛇添足 ， 


This version of MySQL doesn't yet Support 'LIMIT & IN/ALL/ANY/SOME 





SELECT * FROM tl WHERE ml IN (SELECT m2 FROM t2 ORDER BY m2); 
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集合 中 的 值 是 否 去 重 也 没 啥 意义 ， 因 此 下 面 语句 中 的 DISTINCT 子 句 也 是 无 用 的 : 
SELECT * FROM tl WHERE ml IN (SELECT DISTINCT m2 FROM t2) ; 


在 没有 聚集 函数 以 及 HAVING 子 句 时 ，GROUP BY 子 句 就 是 个 摆设 ， 因 此 下 面 语 句 中 的 
GROUP BY 子 句 也 是 无 用 的 : 


SELECT * FROM tl WHERE ml IN (SELECT m2 FROM t2 GROUP BY m2); 


对 于 这 些 无 用 的 子 句 ， 优 化 器 在 一 开始 就 把 它们 “干掉 ”了 。 
e 不 允许 在 一 条 语句 中 增删 改 某 个 表 的 记录 时 ， 同 时 还 对 该 表 进 行 子 查询 。 
比如 下 面 这 样 : 


mysql> DELETE FROM tl WHERE ml < (SELECT MAX (ml) FROM t1); 


二 站 


ERROR 1093 (HY000): You can't specify target table 'tl' for Update in FROM clause 


14.3.2 ” 子 查 询 在 MySQL 中 是 怎么 执行 


好 了 ， 有 关子 查询 的 基础 语法 我 们 已 经 用 最 快 的 速度 温习 了 一 遍 。 如 果 想 了 解 更 多 语法 细 。“ 
节 ， 大 家 可 以 去 查看 MySQL 文档 。 现 在 就 算 大 家 都 知道 只 是 子 查 询 了 ， 接 下 来 就 要 啼 明 具 体 某 
种 类 型 的 子 查询 在 MySQL 中 是 怎么 执行 的 。 想 想 还 有 点 儿 小 激动 呢 ! 当然 ， 为 了 故事 的 顺利 发 。 
展 ， 我 们 的 例子 也 需要 跟随 形势 “ 鸟 枪 换 炮 ”。 这 里 还 是 先 系 出 用 了 好 多 遍 的 single_table 表 : | 


: 

CREATE TABLE single table ( 
id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR(100), 
key2 INT, 
key3 VARCHAR (100), 
key_partl VARCHAR (100), 
key_ part2 VARCHAR (100), 
key_part3 VARCHAR(100), 
common field VARCHAR (100), 
PRIMARY KEY (id), 
KEY idx keyl (keyl), 
UNIQUE KEY uk key2 (key2), 
KEY idx key3 (key3), | 
KEY idx_ key part (key_ partl, key_ part2, key_part3) 

) Engine=InnoDB CHARSET=utf8; / 


为 了 方便 ， 假 设 s1、s2 这 两 个 表 与 single table 表 的 构造 是 相同 的 ， 而 且 这 两 个 表 中 有 
10,000 条 记录 ， 除 id 列 外 其 余 的 列 都 插入 随机 值 。 下 边 正 式 开始 我 们 的 表演 。 

1. 小 白眼 中 的 子 查询 执行 方式 

在 我 还 是 一 个 单纯 无 知 的 少年 时 ， 我 觉得 子 查 询 的 执行 方式 应 该 是 下 面 这 样 的 。 

@ 如 果 该 子 查询 是 不 相关 子 查询 ， 比 如 下 面 这 个 查询 : 


SELECT * FROM sl 


WHERE keyl IN (SELECT common field FROM 5s2); 


7 
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它 的 执行 方式 应 该 是 这 样 的 。 
步骤 1. 先 单独 执行 (SELECT common _field FROM s2) 子 查 询 。 
步骤 2， 然 后 将 子 查询 得 到 的 结果 当 作 外 层 查询 的 参数 ， 再 执行 外 层 查询 SELECT * FROM 
sl WHERE keyl IN (4)e 
e 如果 该 子 查询 是 相关 子 查询 ， 比 如 下 面 这 个 查询 : 


SELECT * FROM s]1 
WHERE keyl IN (SELECT Common field FROM s2 WHERE sl.key2 = s2.key2); 


这 个 查询 语句 的 子 查询 中 出 现 了 sl.key2 = s2.key2 这 样 的 条 件 ， 这 意味 着 该 子 查询 的 执行 
依赖 外 层 查 询 的 值 。 所 以 年 少时 的 我 觉得 这 个 查询 的 执行 方式 是 这 样 的 。 
步骤 1. 先 从 外 层 查询 中 获取 一 条 记录 。 在 本 例 中 也 就 是 先 从 sl 表 中 获取 一 条 记录 。 
步骤 2. 然后 从 获取 的 这 条 记录 中 找 出 子 查询 中 涉及 的 值 。 在 本 例 中 就 是 从 sl 表 中 获取 的 
那 条 记录 中 找 出 slkey2 列 的 值 ， 然 后 执行 子 查询 。 
步骤 3。 最 后 根据 子 查 询 的 查询 结果 来 检测 外 层 查 询 WHERE 子 句 的 条 件 是 否 成 立 。 如 果 成 
立 ， 就 把 外 层 查 询 的 那 条 记录 加 入 到 结果 集 ， 否 则 就 丢弃 . 
步骤 4. 重复 执行 步骤 1， 获取 第 二 条 外 层 查 询 中 的 记录 ; 依 此 类 推 ， 
请 大 家 告诉 我 不 是 只 有 我 一 个 人 是 这 样 认为 的 。 
其 实 ， 设计 MySQL 的 大 叔 想 出 了 一 系列 办 法 来 优化 子 查询 的 执行 。 这 些 优化 措施 在 大 部 
分 情况 下 其 实 手 有 效 的 ， 但 是 保 不 齐 有 “ 马 失 前 蹄 ”之 时 。 下 边 我 们 详细 啼 明 各 种 不 同类 型 的 
子 查询 具体 是 怎么 执行 的 。 z 





; 例 :。 下 文 了 将 哮 果 的 MySQL 优化 于 查询 的 执行 方式 ， 者 是 以 MySQL5 了 7 版 本 为 基础 ， 
小 贴 十 ”后 续 版 本 可 能 有 更 新 的 优化 策略 ! \ " z 二 

2， 标 量子 查询 、 行 子 查询 的 执行 方式 

下 面 这 两 个 场景 中 经 常会 使 用 到 标量 子 查询 或 者 行 子 查询 。 

。 在 SELECT 子 句 中 : 前 文 说 过 ， 在 查询 列表 中 的 子 查询 必须 是 标量 子 查询 。 

。 子 查询 使 用 =、>、<、>=、<=、< 呈 、!=、<=> 等 操作 符 和 某 个 操作 数组 成 一 个 布尔 表 

达 式 : 这 样 的 子 查询 必须 是 标量 子 查询 或 者 行 子 查询 。 

对 于 上 述 两 种 场景 中 的 不 相关 标量 子 查询 或 者 行 子 查询 来 说 ， 它 们 的 执行 方式 很 简单 。 比 

如 下 面 这 个 查询 语句 : 


SELECT * FROM sl 
WHERE keyl = (SELECT common field FROM s2 WHERE key3 = 'a' LIMIT 1); 


它 的 执行 方式 和 年 少时 的 我 想 得 一 样 。 

步骤 1. 单独 执行 (SELECT common field FROM s2 WHERE key3 = 'a' LIMIT 1) 这 个 子 
查询 。 

步 又 2， 然 后 将 子 查询 得 到 的 结果 当 作 外 层 查 询 的 参数 ， 再 执行 外 层 查询 SELECT * FROM 
sl WHERE keyl = …。 
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也 就 是 说 ， 对 于 包含 不 相关 的 标量 子 查询 或 者 行 子 查询 的 查询 语句 来 说 ，MySQL 会 分 别 
独立 执行 外 层 查 询 和 子 查询 一 一 当 作 两 个 单 表 查 询 就 好 了 。 
对 于 相关 的 标量 子 查询 或 者 行 子 查询 ， 比 如 下 面 这 个 查询 : 


SELECT * FROM sl WHERE 
keyl = (SELECT common field FROM s2 WHERE sl.key3 = S2.key3 LIMIT 1); ， 


事情 也 和 年 少时 的 我 想 得 一 样 ， 它 的 执行 方式 就 是 下 面 这 样 。 
步骤 1. 先 从 外 层 查询 中 获取 一 条 记录 。 在 本 例 中 也 就 是 先 从 sl 表 中 获取 一 条 记录 。 
步骤 2. 然后 从 这 条 记录 中 找 出 子 查询 中 涉及 的 值 。 在 本 例 中 就 是 从 sl 表 中 获取 的 那 条 记 
录 中 找 出 sl.key3 列 的 值 ， 然 后 执行 子 查询 。 
步骤 3. 最 后 根据 子 查询 的 查询 结果 来 检测 外 层 查询 WHERE 子 句 的 条 件 是 否 成 立 。 如 果 成 
立 ， 就 把 外 层 查询 的 那 条 记录 加 入 到 结果 集 ， 否 则 就 丢弃 。 
步骤 4. 跳 到 步骤 1， 直 到 外 层 查询 中 获取 不 到 记录 为 止 。 
也 就 是 说 ， 在 使 用 标量 子 查询 以 及 行 子 查 询 的 场景 中 ，MYySQL 的 执行 方式 并 没有 什么 新 
鲜 的 ， 与 年 少时 的 我 想 得 一 样 。 


3. IN 子 查询 优化 
(1) 物化 表 的 提出 
对 于 不 相关 的 IN 子 查询 ， 比 如 下 面 这 样 : 


SELECT * FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = 'a'); 


我 们 最 开始 的 感觉 就 是 ， 这 种 不 相关 的 IN 子 碍 询 的 执行 方式 ， 与 不 相关 的 标量 子 查询 或 者 行 
子 查 询 一 样 ， 都 是 把 外 层 查询 和 子 查询 当 作 两 个 独立 的 单 表 查 询 来 对 待 。 遗 憾 的 是 ， 事 情 并 不 
是 我 们 想象 的 样子 。 设 计 MySQL 的 大 叔 为 了 优化 IN 子 查 询 而 倾注 了 太 多 心血 〈 毕 竟 IN 子 查 
询 是 最 常用 的 子 查询 类 型 ) ， 整 个 执行 过 程 并 没有 我 们 想象 的 那么 简单 。 
说 句 老 实话 ， 对 于 不 相关 的 IN 子 查询 来 说 ， 如 果子 查询 结果 集中 的 记录 条 数 很 少 ， 那 么 
把 子 查询 和 外 层 碍 询 分 别 看 成 两 个 单独 的 单 表 碍 询 ， 效 率 还 是 蛮 高 的 。 但 是 ， 如 果 单 独 执行 子 
查询 后 的 结果 集 太 多 ， 就 会 导致 下 面 这 些 问题 。 
e 结果 集 太 多 ， 可 能 内 存 中 都 放 不 下 。 
e 对 于 外 层 查 询 来 说 ， 如 果子 查询 的 结果 集 太 多 ， 则 意味 着 IN 子 句 中 的 参数 特别 多 ， 这 
将 导致 : 
”无 法 有 效 地 使 用 索引 ， 只 能 对 外 层 查询 进行 全 表 扫 描 ; 
@ 在 对 外 层 查 询 执 行 全 表 扫 描 时 ， 如 果 IN 子 句 中 的 参数 太 多 ， 会 导致 在 检测 一 条 记 
录 的 IN 表达 式 是 否 为 TRUE 时 花费 太 多 的 时 间 。 
假设 IN 子 句 中 的 参数 只 有 两 个 : 


SELECT * FROM tbl_name WHERE column IN (a, b); 


这 样 相 当 于 针对 tbl name 表 中 的 每 条 记录 ， 相 当 于 都 要 判断 它 的 column 列 是 否 符 合 column = 
a OR column =b 条 件 。 当 IN 子 句 中 的 参数 比较 少时 ， 这 并 不 是 什么 问题 。 


Ey 


} 
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如 果 IN 子 句 中 的 参数 比较 多 ， 比 如 下 面 这 样 : 


SELECT * FROM tbl name WHERE column IN (a，b，c ..., ... ) 


这 样 一 来 ， 相 当 于 每 条 记录 都 需要 判断 它 的 column 列 是 否 符合 column = a OR column = b OR 
column =c OR… 条 件 ， 这 样 性 能 耗费 可 就 多 了 。 

于 是 设计 MySQL 的 大 叔 想 了 一 个 招 ; 个 直接 将 不 相关 子 查询 的 结果 集 当 作 外 层 查询 的 参 
数 ， 而 是 将 该 结果 集 写 入 一 个 临时 表 中 。 在 将 结果 集 写 入 临时 表 时 ， 有 两 点 注意 事项 

e 该 临时 表 的 列 就 是 子 查询 结果 集中 的 列 ， 

e 写 入 临时 表 的 记录 会 被 去 重 。 

前 文 讲 到 ，IN 语句 是 用 来 判断 某 个 操作 数 是 否 存在 于 某 个 集合 中 ， 集 合 中 的 值 是 否 重复 
对 整个 IN 语句 的 结果 来 说 并 没有 啥 关系 。 在 将 结果 集 写 入 临时 表 时 ， 对 记录 进行 去 重 可 以 让 
临时 表 变 得 更 小 ， 从 而 更 省 空间 。 
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一 般 情况 下 ， 子 查询 结果 集 不 会 大 得 离谱 ， 所 以 会 为 它 建立 基于 内 存 的 









一 A -” 克 和 < i 
Por -5 从 乞 寺 六 
sept NS {oH 


~ 1 = 2 /4 . ee We a Nt Pe pe 
; fm | ET ps le CrP Es 
I f ns ~ * ‘| 4 Ar “6 sh 4 -| Phe pd a 和 
4 = - 人 和 "of 和 2 A 可 . [ ey > pa 
a pr 、 "me D> or a Eg, hw > sr 5 
en NM * -J pr 只 Sa A Y NH 
mW 站 a 9 . 4 光 > de 5 
ww/ - : JIN ‘~» "a rx 2 了. » Wd "PT 
Ed -wf 2 有 Dan 六 tw ;| NAR Sy Ww -36 fen ph , 
2 3 VD © WS + 上 te pr 7 pt > Wi 
ce Pe 7 RY Os Wt Yt Ed 
z A A pe PE : . - 上 p 
立 了 引 5 AAA NI 国 T 此 月 已 本 ] 1 对 天 主 ; 的 二 < 殖 时， 
/ 、 人 8 由 光平 Pi 6 god AN ed A CT 人 站 全 p+ 
站 — Pw \ 人- 7 E EY vhs Ve | 1 
ert 9 Yh 2 S , AR fh pi 人 


如 果子 查询 的 结果 集 非常 大 ， 超 过 了 系统 变量 tmp_table size 或 者 max_heap table size 的 


B+ 树 索引 。 


设计 MySQL 的 大 叔 把 这 个 “将 子 查询 结果 集中 的 记录 保存 到 临时 表 的 过 程 ” 称 为 物化 
(materialize )。 方 便 起 见 ， 我 们 就 把 那个 存储 子 查询 结果 集 的 临时 表 称 为 物化 表 。 正 因为 物化 
表 中 的 记录 都 建立 了 索引 (基于 内 存 的 物化 表 有 哈 希 索引 ， 基于 磁盘 的 物化 表 有 B+ 树 索 引 )， 
通过 索引 来 判断 某 个 操作 数 是 否 存在 子 查询 结果 集中 时 ， 速度 会 变 得 非常 快 ， 从 而 提升 了 子 查 
询 语句 的 性 能 。 

(2) 物化 表 转 连接 

事情 到 这 就 完了 ? 我 们 还 得 :新 审视 最 开始 的 那个 查询 语句 : 

SELECT * FROM sl 

WHERE keyl IN (SELECT commpn_field FROM s2 WHERE key3 = 'a'); 


当 把 子 查询 物化 之 后 ， 假 设 子 查询 物化 表 的 名 称 为 materialized_table， 该 物化 表 存 储 的 子 
查询 结果 集 的 列 为 m_ val， 那么 这 个 查询 可 以 从 下 面 两 个 角度 来 看 待 。 


e 从 表 s! 的 角度 来 看 待 : 整个 查询 的 意思 是 ， 对 于 sl 表 中 的 每 条 记录 来 说 ， 如 果 该 记录 的 
keyl 列 的 值 在 子 查询 对 应 的 物化 表 中 ， 则 该 记录 会 被 加 入 最 终 的 结果 集 ， 如 图 14 所 示 。 
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图 14-1 物化 表 查 询 过 程 


e 从 子 查询 物化 表 的 角度 来 看 待 : 整个 查询 的 意思 是 ， 对 于 子 查询 物化 表 的 每 个 值 来 说 ， 
如 果 能 在 sl 表 中 找到 对 应 的 keyl 列 的 值 与 该 值 相 等 的 记录 ， 那 么 就 把 这 些 记 录 加 入 
到 最 终 的 结果 集 ， 如 图 14-2 所 示 。 
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图 14-2 ” 子 查询 物化 表 
也 就 是 说 ， 上 面 的 查询 其 实 相 当 于 表 sl 与 子 查询 物化 表 materialized table 进行 内 连接 : 


SELECT S1.* FROM S1 INNER JOIN materialized table ON keyl = m val; 


转换 成 内 连接 之 后 就 有 意思 了 。 查 询 优 化 器 可 以 评估 不 同 连接 顺序 需要 的 成 本 是 多 少 ， 然 
后 从 中 选取 成 本 最 低 的 那 种 方式 执行 查询 。 我 们 分 析 一 下 上 述 查 询 中 使 用 外 层 查询 的 表 sl 和 
物化 表 materialized table 进行 内 连接 的 成 本 都 是 由 哪 几 部 分 组 成 的 。 
如 果 使 用 sl 表 作 为 驱动 表 ， 总 查询 成 本 由 下 面 几 部 分 组 成 : 
] e 物化 子 查询 时 需要 的 成 本 ; 


PT WT Ce de 
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e 扫描 sl 表 时 的 成 本 ; 

e sl 表 中 的 记录 数量 x 通过 条 件 m_val=xxx 对 materialized_table 表 进 行 单 表 访 问 的 成 本 
(前 文 讲 过 ， 物 化 表 中 的 记录 是 不 重复 的 ， 并 且 为 物化 表 中 的 列 建立 了 索引 ， 所 以 这 个 
步骤 非常 快 )。 

如 果 使 用 materialized table 表 作 为 驱动 表 ， 总 查询 成 本 由 下 面 几 部 分 组 成 : 

e 物化 子 查询 时 需要 的 成 本 ; 

e 扫描 物化 表 时 的 成 本 ; 

e 物化 表 中 的 记录 数量 x 通过 条 件 keyl=xxx 对 sl 表 进 行 单 表 访问 的 成 本 (非常 庆幸 在 
keyl 列 上 建立 了 索引 ， 所 以 这 个 步骤 非常 快 )。 

MySQL 优化 器 会 通过 运算 来 选择 成 本 更 低 的 方案 执行 查询 。 

(3) 将 子 查询 转换 为 半 连 接 

虽然 将 子 查 询 进 行 物化 之 后 再 执行 查询 都 会 有 建立 临时 表 的 成 本 ， 但 是 不 管 怎么 说 ， 我 们 

多 识 到 了 将 子 查询 转换 为 连接 的 强大 作用 。 设 计 MySQL 的 大 叔 继续 “ 开 脑 洞 *， 能 不 能 不 进 
行 物 化 操作 ， 直 接 把 子 查询 转换 为 连接 呢 ?” 让 我 们 重新 审视 上 面 的 查询 语句 : 


SELECT * FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = 'a'); 


可 以 把 这 个 查询 理解 成 : 对 于 sl 表 中 的 某 条 记录 ， 如 果 能 在 s2 表 (准确 的 说 是 在 s2 表 
中 符合 条 件 s2.key3='a' 的 记录 ) 中 找到 一 条 或 多 条 记录 ， 这 些 记 录 的 common field 的 值 等 于 
sl 表 记 录 的 keyl 列 的 值 ， 那 么 该 条 sl 表 的 记录 就 会 被 加 入 到 最 终 的 结果 集 。 这 个 过 程 其 实 与 
把 s1 和 s2 两 个 表 连 接 起 来 的 效果 很 像 ; 


| 
SELECT sl.* FROM sl INNER JOIN s2 


ON sl.keyl = s2.common_field 
WHERE s2.key3 = 'a'; | 

从 不 过 我 们 不 能 保证 对 于 sl 表 的 某 条 记录 来 说 ， 在 s2 表 (准确 的 说 是 在 s2 表 中 符合 条 
件 s2.key3='a' 的 记录 ) 中 有 多 少 条 记录 满足 sl.key1=s2.common_field 条件。 不 过 可 以 分 3 种 情 
况 进 行 讨 论 。 

e 人 情况 1: 对 于 sl 表 中 的 某 条 记录 来 说 ，s2 表 中 没有 任何 记录 满足 s]1.key1=s2.common 

field 条 件 ， 那 么 该 记录 自然 也 不 会 加 入 到 最 终 的 结果 集 。 

e 人 情况 2: 对 于 sl 表 中 的 某 条 记录 来 说 ，s2 表 中 有 且 只 有 一 条 记录 满足 sl.key1=s2. 

common_field 条 件 ， 那 么 该 记录 会 被 加 入 最 终 的 结果 集 。 

。 情况 3: 对 于 sl 表 中 的 某 条 记录 来 说 ，s2 表 中 至 少 有 2 条 记录 满足 slkeyl-s2 

common_field 条 件 ， 那 么 该 记录 会 被 多 次 加 入 最 终 的 结果 集 。 

对 于 sl 表 中 的 某 条 记录 来 说 ， 由 于 我 们 只 关心 :2 表 中 是 否 存 在 记录 满足 sl .key1=s2.common 
field 条 件 ， 而 不 关心 具体 有 多 少 条 记录 与 之 匹配 ; 义 因 为 情况 3 的 存在 ， 因 此 前 文 所 说 的 包含 IN 
子 得 询 的 查询 和 两 表 连 接 查 询 之 间 并 不 完全 等 价 。 但 是 将 子 查 询 转换 为 连接 又 确实 可 以 充分 发 挥 
优化 器 的 作用 ， 所 以 设计 MySQL 的 大 叔 在 这 里 提出 了 一 个 新 概念 一 一 半 连 接 (semi-join)。 将 s1 
表 和 2 表 进行 半 连 接 的 意思 就 是 ， 对 于 sl 表 中 的 菜 杀 记 录 来 说 ， 我 们 只 关心 在 只 表 中 是 否 存 在 . 
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与 之 匹配 的 记录 ， 而 不 关心 具体 有 多 少 条 记录 与 之 匹配 ， 最 终 的 结果 集中 只 保留 sl 表 的 记录 。 为 
了 让 大 家 有 更 直观 的 感受 ， 我 们 假设 MySQL 内 部 是 按照 下 面 这 样 来 改写 前 面 的 子 查询 的 : 
SELECT sl.* FROM sl SEMI JOIN s2 


ON sl.keyl = s2.common field 
WHERE key3 = ‘'a'; 


Ct ， 半 连 接 只 是 在 MySQL 内 部 采用 的 一 种 执行 子 查询 的 方式 . MySQL 并 没有 提供 面 
向 用 户 的 半 连 接 语法 ，， 所 以 我 们 不 需要 也 不 能 尝试 把 上 面 这 个 语句 放 到 黑 框 框 中 运行 ， 
小 贴 士 ， 这 里 只 是 起 说 明 一 下 上 面 的 于 查询 在 MySQL 内 部 会 被 转换 为 类 似 上 述 语句 的 半 连 接 。 


概念 是 有 了 ， 怎 么 实现 这 种 半 连 接 昵 ?设计 MySQL 的 大 叔 准备 了 好 几 种 办 法 。 

e@e Table pullout ( 子 查询 中 的 表 上 拉 ) 

当 子 得 询 的 碍 询 列 表 处 只 有 主键 或 者 唯一 索引 列 时 ， 可 以 直接 把 子 查询 中 的 表 上 拉 到 外 层 
得 询 的 FROM 子 句 中 ， 并 把 子 查 询 中 的 搜索 条 件 合 并 到 外 层 查询 的 搜索 条 件 中 。 比 如 在 下 面 
这 个 查询 语句 中 : 

SELECT * FROM S1 

WHERE key2 IN (SELECT key2 FROM s2 WHERE key3 = 'a'); 
由 于 key2 列 是 s2 表 的 唯一 二 级 索引 列 ， 所 以 可 以 直接 把 s2 表 上 拉 到 外 层 查询 的 FROM 子 句 中， 
并 且 把 子 查 询 中 的 搜索 条 件 合并 到 外 层 查 询 的 搜索 条 件 中 。 上 拉 之 后 的 查询 就 是 下 面 这 样 ; 
SELECT Sl.* FROM sl INNER JOIN s2 
ON sl.key2 = s2.key2 
WHERE s2.key3 = 'a'; 

为 啥子 得 询 的 查询 列表 处 只 有 主键 或 者 唯一 索引 列 时 ， 就 可 以 直接 将 子 查询 转换 为 连接 查 
询 昵 ? 臧 呀 ， 主 键 或 者 唯一 索引 列 中 的 数据 本 身 就 是 不 重复 的 嘛 ! 所 以 对 于 同一 条 sl 表 中 的 
记录 〈 也 就 是 s1.key2 值 是 一 个 确定 的 常数 )， 我 们 不 可 能 在 s2 表 中 找到 2 条 以 及 2 条 以 上 的 

合 S2.key2=s1.key2 的 记录 ， 也 就 不 存在 前 文 所 说 的 情况 3 了 。 

@ ”Duplicate Weedout (重复 值 消除 ) 

对 于 下 面 这 个 查询 : 

SELECT * FROM sl 

WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = 'a'); 
在 转换 为 半 连 接 查 询 后 ，sl 表 中 的 某 条 记录 可 能 在 s2 表 中 有 多 条 匹配 的 记录 ， 所 以 该 条 记录 
可 能 多 次 被 添加 到 最 后 的 结果 集中 。 为 了 消除 重复 ， 我 们 可 以 建立 一 个 临时 表 ， 比 如 这 个 临时 
表 如 下 所 示 : 


CREATE TABLE tmp ( 
id INT PRIMARY KEY 


st 
*® 
La 


) 2 


这 样 在 执行 连接 查询 的 过 程 中 ， 每 当 某 条 sl 表 中 的 记录 要 加 入 结果 集 时 ， 就 首先 把 这 条 
记录 的 id 值 加 入 到 这 个 临时 表 中 。 如 果 添 加 成 功 ， 则 说 明之 前 这 条 sl 表 中 的 记录 并 没有 加 入 
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最 终 的 结果 集 ， 现 在 把 该 记录 添加 到 最 终 的 结果 集 ; 如 果 添 加 失败 ， 则 说 明 这 条 sl 表 中 的 记 


录 之 前 已 经 加 入 到 最 终 的 结果 集 ， 这 里 直接 把 它 丢 弃 就 好 了 。 这 种 使 用 临时 表 消除 半 连 接 结 果 
集中 重复 值 的 方式 称 为 Duplicate Weedout。 


@ LooseScan (松散 扫描 ) 
对 于 下 面 这 个 查询 : 
SELECT * FROM S1 
WHERE key3 IN (SELECT keyl FROM Ss2 WHERE keyl > "a' RND keyl < 'b'); 


在 子 查询 中 ， 对 于 s2 表 的 访问 可 以 使 用 到 keyl 列 的 索引 ， 而 子 查询 的 查询 列表 处 恰好 就 是 


keyl 列 。 这 样 在 将 该 查询 转换 为 半 连 接 查询 后 ， 如 果 将 s2 作为 驱动 表 执 行 查询 ， 那 么 执行 过 ， 


程 如 图 14-3 所 示 。 | 





图 14-3 将 s2 作为 驱动 表 的 查询 执行 过 程 


在 14-3 中 可 以 看 到 ， 在 s2 表 的 idx keyl 索引 中 ， 值 为 'aa' 的 二 级 索引 记录 一 共有 3 条 ， 
只 需要 取 第 一 条 的 值 到 sl 表 中 查找 sl.key3='aa' 的 记录 。 如 果 能 在 sl 表 中 找到 对 应 的 记录 ， 
就 把 对 应 的 记录 加 入 到 结果 集 。 依 此 类 推 ， 其 他 值 相同 的 二 级 索引 记录 ， 也 只 需要 取 第 一 条 记 
录 的 值 到 sl 表 中 找 匹 配 的 记录 ， 这 种 虽然 是 扫描 索引 ， 但 只 取 键 值 相同 的 第 一 条 记录 去 执行 
匹配 操作 的 方式 称 为 LooseScan。 

e@ Semi-join Materialization 〈 半 连接 物化 ) 

前 文 介绍 的 “ 先 把 外 层 查询 的 IN 子 句 中 的 不 相关 子 查询 进行 物化 ， 然 后 再 将 外 层 查询 的 
表 与 物化 表 进 行 连接 ”在 本 质 上 也 算是 一 种 半 连 接 的 实现 方案 。 只 不 过 由 于 物化 表 中 没有 重复 
的 记录 ， 所 以 可 以 直接 将 子 查 询 转 为 连接 查询 。 

e@ FirstMatch 〈 首 次 匹配 ) 

首次 匹配 是 一 种 最 原始 的 半 连 接 执行 方式 ， 与 我 们 年 少时 认为 的 相关 子 得 询 的 执行 方式 是 
一 样 的 ， 即 先 取 一 条 外 层 查 询 中 的 记录 ， 然 后 到 子 查询 的 表 中 寻找 符合 匹配 条 件 的 记录 。 如 果 
能 找到 一 条 ， 则 将 该 外 层 查 询 的 记录 放 入 最 终 的 结果 集 并 且 停 止 查找 更 多 匹配 的 记录 ; 如 果 找 
不 到 ， 则 把 该 外 层 查 询 的 记录 丢弃 掉 ， 然 后 再 开始 取 下 一 条 外 层 查询 中 的 记录 。 这 个 过 程 不 停 
重复 ， 直 到 外 层 查询 获取 不 到 记录 为 止 。 

对 于 包含 相关 子 查 询 的 查询 ， 比 如 下 面 这 个 查询 : 
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SELECT * FROM S1 
WHERE keyl IN (SELECT common field FROM S2 WHERE sl.key3 = s2.key3); 


它 也 可 以 很 方便 地 转 为 半 连 接 。 转 换 后 的 语句 类 似 于 下 面 这 样 : 


SELECT S1.* FROM sl SEMI JOIN s2 
ON sl.keyl = s2.common fieldq AND sS1.key3 = s2.key3; 


接 下 来 就 可 以 使 用 前 面 介绍 的 DuplicateWeedout、LooseScan、FirstMatch 等 半 连 接 执行 策 
略 来 执行 查询 。 当 然 ， 如 果子 查询 的 查询 列表 处 只 有 主键 或 者 唯一 二 级 索引 列 ， 还 可 以 直接 使 
用 Table pullout 策略 来 执行 查询 。 需 要 注意 的 是 ， 由 于 相关 子 查询 并 不 是 一 个 独立 的 查询 ， 所 
以 不 能 转换 为 物化 表 来 执行 查询 。 

(4) 半 连 接 的 适用 条 件 

当然 ， 并 不 是 所 有 包含 IN 子 查询 的 查询 语句 都 可 以 转换 为 半 连 接 ， 只 有 形 如 下 面 这 样 的 
查询 才 可 以 转换 为 半 连 接 : 


SELECT ... FROM outer tables 
WHERE expr IN (SELECT ... FROM inner tables ...) AND ... 
下 面 这 样 的 形式 也 可 以 转换 为 半 连 接 : 
SELECT ... FROM outer tables 
WHERE (oel, oe2, ...) IN (SELECT iel, ie2, ... FROM inner tables ...) AND ... 


总 结 一 下 ， 只 有 符合 下 面 这 些 条 件 的 子 查询 才 可 以 转换 为 半 连 接 : 

@ 该 子 查 询 必须 是 与 IN 操作 符 组 成 的 布尔 表达 式 ， 并 且 在 外 层 查询 的 WHERE 或 者 ON 
子 句 中 出 现 ; 

@ 外 层 查 询 也 可 以 有 其 他 的 搜索 条 件 ， 只 不 过 必须 使 用 AND 操作 符 与 IN 子 查询 的 搜索 
条 件 连 接 起 来 ; 

@ 该 子 查 询 必须 是 一 个 单一 的 查询 ， 不 能 是 由 UNION 连接 起 来 的 若干 个 查询 ; 

@ 该 子 查 询 不 能 包含 GROUP BY、HAVING 语句 或 者 聚集 函数 。 

还 有 一 些 条 件 比 较 少 见 ， 这 里 就 不 啼 明 了 。 

(5) 不 适用 于 半 连 接 的 情况 

还 有 一 些 不 能 将 子 查 询 转 换 为 半 连 接 的 情况 ， 比 较 典 型 的 有 下 面 这 几 种 。 

e 在 外 层 碍 询 的 WHERE 子 句 中 ， 存 在 其 他 搜索 条 件 使 用 OR 操作 符 与 IN 子 查询 组 成 的 
布尔 表达 式 连 接 起 来 的 情况 。 
SELECT * FROM 81 


WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = 'a!') 
OR key2 > 100; 


“ @ 使 用 NOTIN 而 不 是 JIN 的 情况 。 


SELECT * FROM sl 
WHERE keyl NOT IN (SELECT common field FROM s2 WHERE key3 = 'a') 


@ 位 于 SELECT 子 句 中 的 IN 子 查询 的 情况 。 








~、 em 
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SELECT keyl IN (SELECT common field FROM s2 WHERE key3 = 'a') FROM sl ; 


。 本 查询 中 包含 GROUP BY、HAVING 或 者 聚集 函数 的 情况 。 


SELECT * FROM sl 
WHERE key2 IN (SELECT COUNT (*) FROM s2 GROUP BY keyl) ; 


9 于 查询 中 包含 UNION 的 情况 。 


SELECT * FROM S1 WHERE keyl IN ( 


SELECT common field FROM s2 WHERE key3 = 'a' ] 
UNION 


SELECT common field FROM S2 WHERE key3 = 'b' 


) | 

] MySQL 仍然 留 了 “两 手 绝活 ”来 优化 不 能 转 为 半 连 接 查 询 的 子 查 询 ， 具 体 如 下 。 

: e 对 于 不 相关 的 子 查 询 ， 可 以 尝试 把 它们 物化 之 后 再 参与 查询 。 
比如 前 文 提 到 的 这 个 查询 : 


SELECT * FROM sl 
WHERE keyl NOT IN (SELECT common,_field FROM S2 WHERE key3 = 'a') 


先 将 子 查询 物化 ， 然 后 再 判断 keyl 是 否 在 物化 表 的 结果 集中 。 这 样 可 加 快 查询 执行 的 速度 。 


-O. 请 注意 ， 这 里 将 子 查询 物化 之 后 不 能 转 为 与 外 层 查 询 的 表 的 连接 ， 只 他 是 先入 si 
小 贴 十 条 ， 然后 针对 91 表 的 莱 条 记录 来 判断 该 记录 的 keyl 信 是 否 在 物化 表 中 2 


. 无 论 子 查询 是 相关 的 还 是 不 \ 相 关 的 ， 都 可 以 把 IN 子 查 询 尝试 转 为 EXISTS 子 查 询 。 
其 实 ， 对 于 任意 一 个 IN 子 查询 来 说 ， 都 可 以 转换 EXISTS 子 查询 。 通用 的 转换 示例 如 下 : 
Outer expr IN (SELECT inner expr FROM ... WHERE subquery_ where) 


可 以 被 转换 为 : 


EXISTS (SELECT inner expr FROM .. 





+ WHERE subquery where AND outer _expr=inner expr) 


当然 这 个 过 程 中 有 一 “学 特殊 情况 ， 比如 在 outer_expr 或 者 inner expr 值 为 NULL 时 。 因 为 


an IS NULL 操作 符 的 表达 式 中 ， 如 果 某 个 操作 数值 为 NULL， 那 么 表达 式 的 结果 也 为 
。 比 如 : 


| | 
| mysql> SELECT NULL IN (1, 2, 3); 


" ~ AAS » 


| 
] | NULL IN (1, 2, 3) | | 


1 row in set (0.00 sec) 


mysql> SELECT 1 IN (1, 2, 3); 
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di + 
1 row in set (0.00 sec) | 
4 
pp 


mysql> SELECT NULL IN (NULL); 


1 row in set (0.00 sec) 


而 EXISTS 子 查 询 的 结果 肯定 是 TRUE 或 者 FASLE : 


mysql> SELECT EXISTS (SELECT 1 FROM sl1 WHERE NULL = 1)，; 


mysql> SELECT EXISTS (SELECT 1 FROM S1 WHERE 1 = NULL); 


1 row in set (0.00 sec) 


mysql> SELECT EXISTS (SELECT 1 FROM sl1 WHERE NULL = NULL); 


1 row in set (0.00 sec) 


幸运 的 是 ，IN 子 查 询 的 大 部 分 使 用 场景 是 把 它 放 在 WHERE 或 者 ON 子 句 中 ， 而 WHERE 


或 者 ON 子 句 是 不 区 分 NULL 和 FALSE 的 。 比 如 : 


mysql> SELECT 1 FROM S1 WHERE NULL; 
Empty set (0.00 sec) 


mysql> SELECT 1 FROM S1 WHERE FALSE; 
Empty set (0.00 sec) . 


所 以 只 要 IN 子 查询 放 在 WHERE 或 者 ON 子 句 中 ， 那 么 IN 到 EXISTS 的 转换 就 没 问 题 。 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| EXISTS (SELECT 1 FROM sl1 WHERE NULL = 1) | 
4 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 0 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
1 row in set (0.01 sec) 


说 了 这 么 多 ， 可 我 们 为 啥 要 进行 转换 呢 ? 这 是 因为 不 转换 的 话 可 能 用 不 到 索引 。 比 如 下 面 这 个 
查询 : 


SELECT * FROM sl 
WHERE keyl IN (SELECT key3 FROM S2 where sl.common field = s2.common field) 
OR key2 > 1000; 








| 
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这 个 查询 中 的 子 查 询 是 一 个 相关 子 查询 ， 而 且 子 查询 在 执行 时 不 能 使 用 到 索引 。 但 是 将 它 
转 为 EXISTS 子 查询 后 却 可 以 使 用 到 索引 : 


SELECT * FROM sl 





WHERE EXISTS (SELECT 1 FROM s2 where sl.common field = s2.common field AND s2.key3 = sl.keyl) 
OR key2 > 1000; 
由 上 面 可 以 看 到 ， 转 为 EXISTS 子 查询 后 便 可 以 使 用 到 s2 表 的 idx_key3 索引 了 。 


需要 注意 的 是 ， 如 果 IN 子 查询 不 满足 转换 为 半 连 接 的 条 件 ， 又 不 能 转换 为 物化 表 ， 或 者 
转换 为 物化 表 的 成 本 太 高 ， 那 么 它 就 会 被 转换 为 EXISTS 子 查询 。 


在 MySQL 5.5 以 及 之 前 的 版 本 中 ， 没 有 引 入 半 连 接 和 物化 的 方 式 来 优化 于 查询 ， 
、，， 查询 优化 器 都 会 把 IN 也 查询 转换 为 EXISTS 子 查询 . 好 多 同学 可 能 惊 呼 ， 我 明明 写 了 
; 傅 :， 一 个 下 相关 于 查询 ， 为 要 按照 执行 相关 于 查询 的 方式 来 执行 行 氟 ?所 以 如 果 你 使 用 的 是 ， 
小 贴 十 “MySQL 5.5 或 者 更 早 的 版 本 ， 将 包含 子 查 询 的 语句 手动 转 为 连接 查询 可 能 会 起 到 比较 好 
的 效果 。 不 过 自从 MySQL 5.6 开始 ， ss 2 
么 特殊 情况 的 话 ， We 优化 器 自 己 去 优化 就 好 了 es A 






Po ss 
RU 证 
J | 

A - I 
和 - 





(6) 小 结 

如 果 IN 子 查询 符合 转换 为 半 连 接 的 条 件 ， 查询 优化 器 会 优先 把 该 子 查 询 转换 为 半 连 接 ， 
然后 再 考虑 下 面 5 种 执行 半 连 接 的 策略 中 哪个 的 成 本 最 低 ， 最 后 从 中 选择 成 本 最 低 的 执行 策略 
来 执行 子 查 询 。 

@ Table pullout 
Duplicate Weedout 
LooseScan 


Semi-]oin Materialization 





@ FirstMatch execution | 


如 果 IN 子 查 询 不 符合 转换 为 半 连 接 的 条 件 ， 那 么 查询 优化 器 会 从 下 面 两 种 策略 中 找 出 一 
种 成 本 更 低 的 方式 来 执行 子 查 询 : 


e@ 先 将 子 查 询 物化 ， 再 执行 查询 ; 
e@e 执行 IN 到 EXISTS 的 转换 。 
4. ANY/ALL 子 查询 优化 


如 果 ANY/ALL 子 查询 是 不 相关 子 查询 ， 它 们 在 很 多 场合 下 都 能 转换 成 我 们 熟悉 的 方式 来 
执行 〈 见 表 14-1 )。 | 


表 14-1 子 查 询 的 转换 

原始 表达 式 转换 为 
< ANY (SELECT inner_expi … 
> ANY (SELECT inner expi ... 
< ALL (SELECT inner expr .… 
> ALL (SELECT inner_expr... 





< (SELECT MAX(inner expr) …) 
> (SELECT MIN(inner expr) ...) 
< (SELECT MIN(inner expT) ...) 


Au NN | Ne 


> (SELECT MAX(inner expr) .…) 


和 ss 
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5，[NOT] EXISTS 子 查询 的 执行 

如 果 [NOT] EXISTS 子 查询 是 不 相关 子 查询 ， 可 以 先 执 行 子 查 询 ， 得 出 该 NOT] EXISTS 
子 查询 的 结果 是 TRUE 还 是 FALSE， 然 后 重 写 原先 的 查询 语句 。 比 如 对 于 下 面 这 个 查询 : 

SELECT * FROM sl 


WHERE EXISTS (SELECT 1 FROM s2 WHERE keyl = "a') 
OR key2 > 100; 


因为 这 个 语句 中 的 子 查询 是 不 相关 子 查询 ， 所 以 查询 优化 器 会 首先 执行 该 子 查询 。 假 设 该 EXISTS 
子 查 询 的 结果 为 TRUE， 查询 优化 器 会 重 写 查询 ， 如 下 所 示 : 


SELECT * FROM sl 
WHERE TRUE OR key2 > 100; 


进一步 简化 后 就 变 成 了 下 面 这 样 : 


SELECT * FROM sl 
WHERE TRUE; 


对 于 相关 的 [NOT] EXISTS 子 查询 来 说 ， 比 如 下 面 这 个 查询 : 


SELECT * FROM sl 
WHERE EXISTS (SELECT 1 FROM S2 WHERE sl .common field = s2.common field); 


很 不 幸 ， 这 个 查询 只 能 按照 我 们 年 少时 认为 的 相关 子 查询 的 执行 方式 来 执行 。 不 过 如 果 [NOT] 
EXISTS 子 查询 中 可 以 使 用 索引 ， 那 么 查询 速度 也 会 加 快 不 少 。 比 如 : 


SELECT * FROM sl 
WHERE EXISTS (SELECT 1 FROM s2 WHERE sl.common field = s2.keyl); 


在 上 面 这 个 EXISTS 子 查询 中 可 以 使 用 idx keyl 来 加 快 查 询 速 度 。 


6. 对 于 派生 表 的 优化 

前 文 说 过 ， 把 子 查 询 放 在 外 层 查 询 的 FROM 子 句 后 ， 这 个 子 查 询 相 当 于 一 个 派生 表 。 比 
如 下 面 这 个 查询 : 

SELECT * FROM ( 

SELECT id RS d id， key3 AS d key3 FROM s2 WHERE keyl = 'a! 
) AS derived sl WHERE d key3 = "a'}; 

子 查询 ( SELECT id AS d id, key3 AS d key3 FROM s2 WHERE keyl ='a') 就 相当 于 一 个 派生 表 ， 
这 个 表 的 名 称 是 derived_sl1。 该 表 有 两 个 列 ， 分 别 是 d_ id 和 d key3。 

对 于 含有 派生 表 的 查询 ，MySQL 提供 了 两 种 执行 策略 。 

@ 把 派生 表 物 化 (这 也 是 最 容易 想到 的 )。 

我 们 可 以 将 派生 表 的 结果 集 写 到 一 个 内 部 的 临时 表 中 ， 然 后 把 这 个 物化 表 当 作 普 通 表 一 样 
来 参与 查询 。 当 然 ， 在 对 派生 表 进 行 物化 时 ， 设 计 MySQL 的 大 叔 使 用 了 一 种 称 为 延迟 物化 的 
策略 ， 也 就 是 在 查询 中 真正 使 用 到 派生 表 时 才 会 去 尝试 物化 派生 表 ， 而 不 是 在 执行 查询 之 前 就 
先 把 派生 表 物 化 。 比 如 ， 对 于 下 面 这 个 含有 派生 表 的 查询 来 说 : 
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SELECT * FROM ( 
SELECT * FROM sl WHERE keyl = 'a' 
) AS derived sl INNER JOIN S2 
ON derived _ sl.keyl = Ss2.key]l 
WHERE s2.key2 = 1; 


如 果 采 用 物化 派生 表 的 方式 来 执行 这 个 查询 ， 在 执行 时 首先 会 到 s2 表 中 找 出 满足 s2.key2=1 的 
记录 。 如 果 压 根 儿 找 不 到 ， 说 明 参 与 连接 的 s2 表 记 录 就 是 空 的， 所 以 整个 查询 的 结果 集 就 是 
空 的 ， 也 就 没有 必要 去 物化 查询 中 的 派生 表 了 ， 

e 将 派生 表 和 外 层 查询 合并 (也 就 是 将 查询 重 写 为 没有 派生 表 的 形式 )。 

我 们 来 看 下 面 这 个 包含 派生 表 的 查询 ， 它 相当 简单 ， z 


SELECT * FROM (SELECT * FROM sl WHERE keyl = 'a') AS derived sl; 


这 个 查询 在 本 质 上 是 想 查看 $1 表 中 满足 keyl='a' 条件 的 全 部 记录 ， 所 以 它 与 下 面 这 个 语 
可 是 等 价 的 : 


SELECT * FROM S1 WHERE keyl = !'a'; 


对 于 一 些 包含 派 生 表 的 稍微 复杂 的 语句 ， 比如 上 面 提 到 的 那个 : 


SELECT * FROM ( | 
SELECT * FROM sl] WHERE keyl = 'a' 
) AS derived sl] INNER JOIN Ss2 
ON derived sl.keyl = Ss2.key] 
WHERE s2.key2 = 1; | 


可 以 将 派生 表 与 外 层 查 询 合并 ， 然后 将 派生 表 中 的 搜索 条 件 放 到 外 层 查询 的 搜索 条 件 中 ， 吏 像 
下 面 这 样 : 


SELECT * FROM sl INNER JOIN Ss2 | 
ON sl.keyl = s2.keyl 
WHERE sl.keyl = 'a' AND Ss2.key2 = 1; 


这 样 ， 明 过 将 外 层 查 询 和 派生 表 合 并 的 方式 就 成 功 地 消除 了 派生 表 ， 这 也 就 意味 着 我 们 没 
必要 再 付出 创建 和 访问 临时 表 的 成 本 了 。 但 是 ， 并 不 是 所 有 带 有 派生 表 的 查询 都 能 成 功 地 与 外 
层 坦 询 合并 。 当 派生 表 中 有 下 面 这 些 函 数 或 语句 时 ， 就 不 可 以 与 外 层 查询 合并 : 

e 彩 集 函数 ， 比 如 MAX0O、MINO、 SUMO0 等 ; 

DISTINCT ; 
GROUP BY : 
HAVING ; | 
LIMIT ; 
UNION 或 者 UNIONALL ; 

e 派生 表 对 应 的 子 查询 的 SELECT 子 句 中 含有 另 一 个 子 查 询 。 

还 有 些 不 常用 的 情况 ， 这 里 就 不 多 说 了 。 

所 以 MySQL 在 执行 带 有 派生 表 的 查询 时 ， 优先 尝试 把 派生 表 和 外 层 查 询 进 行 合并 . 如 果 
人 不行 ， 再 把 派生 表 物 化 掉 ， 然 后 执行 查询 。 





| 
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14.4 ”总 结 


MySQL 会 对 用 户 编写 的 查询 语句 执行 一 些 重 写 操 作 ， 比 如 : 
移 除 不 必要 的 插 号 ; 
常量 传递 ; 
移 除 没 用 的 条 件 ; 
表达 式 计算 ; 
HAVING 子 句 和 WHERE 子 句 的 合并 ; 
常量 表 检 测 。 

在 被 驱动 表 的 WHERE 子 句 符合 空 值 拒绝 的 条 件 时 ， 外 连接 和 内 连接 可 以 相互 转换 。 

子 查询 可 以 按照 不 同 的 维度 进行 不 同 的 分 类 ， 比 如 按照 子 查询 返回 的 结果 集 分 类 : 

e 标量 子 查询 ; 

@ 行 子 查询 ; 

@ 列子 查询 ; 

e@ 表 子 查询 。 

按照 与 外 层 查询 的 关系 来 分 类 : 

e 不 相关 子 查 询 ; 

e@e 相关 了 查询 。 

设计 MySQL 的 大 叔 将 IN 子 查询 进行 了 很 多 优化 。 如 果 IN 子 查询 符合 转换 为 半 连 接 的 条 
件 ， 查 询 优 化 器 会 优先 把 该 子 查询 转换 为 半 连 接 ， 然 后 再 考虑 下 面 5 种 执行 半 连 接 查 询 的 策略 
中 哪个 成 本 最 低 ， 最 后 选择 成 本 最 低 的 执行 策略 来 执行 子 查 询 。 

© Table pullout 

@ Duplicate Weedout 

@ LooseScan 

© Semli-join Materialization 

@ FirstMatch 

如 果 IN 子 查 询 不 符合 转换 为 半 连 接 的 条 件 ， 查 询 优 化 器 会 从 下 面 的 两 种 策略 中 找 出 一 种 
成 本 更 低 的 方式 执行 子 查询 : 

e 先 将 子 得 询 物化 ， 再 执行 查询 ; 

e 执行 IN 到 EXISTS 的 转换 。 

MySQL 在 处 理 带 有 派生 表 的 语句 时 ， 优 先 尝试 把 派生 表 和 外 层 查 询 进行 合并 ; 如 果 不 行 ， 
再 把 派生 表 物 化 掉 ， 然 后 执行 查询 。 
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MySQL 查询 优化 器 在 基于 成 本 和 规则 对 一 条 查询 语句 进行 优化 后 ， 会 生成 一 个 执行 计划 。 

个 执行 计划 展示 了 接 下 来 执行 查询 的 具体 方式 ， 比 如 多 表 连 接 的 顺序 是 什么 ， 采 用 什么 访问 
RS 设计 MySQL 的 大 叔 贴心 地 提供 了 EXPLAIN 语句 ， 可 以 让 我 们 查 
看 茶 个 查询 语句 的 具体 执行 计划 。 

本 章 的 内 容 就 是 为 了 帮助 大 家 看 懂 EXPLAIN 语句 的 各 个 输出 项 都 是 干 嘛 使 的 ， 从 而 可 以 
有 针对 性 地 提升 查询 语句 的 性 能 

如 果 我 们 想 查看 某 个 查询 的 执行 计划 ， 可 以 在 具体 的 查询 语句 前 面 加 一 个 EXPLAIN， 就 
像 下 面 这 样 : 


A EXPILAIN SELECT 1; 














+ 一 一 -+4 一 一 一 - 下 一 一 一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 才 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | fltered | Extra | 
+4 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 丰 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 4 一 一 一 一 一 一 一 -一 一 + 
| 1 | SIMPLE | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | No tables used | 
+ + 一 + 一 一 一 二 一 一 -一 一 一 一 + 一 + 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 全 一 一 一 一 一 + 一 一 一 一 +4 一 一 一 一 一 一 一 一 一 一 
1 row in set, 1 warning (0.01 sec) 


输出 的 这 一 大 堆 东 西 就 是 执行 计划 。 我 的 任务 就 是 带领 大 家 看 懂 这 一 堆 东 西里 面 的 每 个 列 
都 是 干 喻 用 的 ， 以 及 在 这 个 执行 计划 的 辅助 下 ， 应 该 怎样 改进 自己 的 查询 语句 ， 使 查询 执行 起 
来 更 高 效 。 其 实 ， 除 了 以 SELECT 开头 的 查询 语句 ， 其 余 的 DELETE、INSERT、REPLACE 以 及 
UPDATE 语句 前 面 都 可 以 加 上 EXPLAIN 这 个 词 儿 ， 用 来 查看 这 些 语 句 的 执行 计划 。 不 过 ， 我 们 这 
里 对 SELECT 语句 更 感 兴 趣 ， 所 以 只 会 以 SELECT 语句 为 例 描述 EXPLAIN 语句 的 用 法 。 为 了 让 
大 家 先 有 一 个 感性 的 认识 ， 我 们 把 EXPLAIN 语句 输出 中 各 个 列 的 作用 大 致 罗列 一 下 〈 见 表 15-1)。 
表 15-1 EXPLAIN 语句 输 中 的 各 个 列 的 作用 
列 名 描述 
id 在 一 个 大 的 查询 语句 中 ， 每 个 SELECT 关键 字 都 对 应 一 个 唯一 的 id 
select type SELECT 关键 字 对 应 的 查询 的 类 型 
table 表 名 
partitions 匹配 的 分 区 信息 


type 针对 单 表 的 访问 方法 
possible keys | 可 能 用 到 的 索引 
key 实际 使 用 的 索引 
key len 实际 使 用 的 索引 长 度 
ref 当 使 用 索引 列 等 值 查询 时 ， 与 索引 列 进 行 等 值 匹配 的 对 象 信息 


RE 
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续 表 
列 名 描述 


rOWS 预 估 的 需要 读 取 的 记录 条 数 
filtered ”| 针对 预 估 的 需要 读 取 的 记录 ， 经 过 搜索 条 件 过 滤 后 剩余 记录 条 数 的 百分比 
Extra 一 些 额外 的 信息 


需要 注意 的 是 ， 大 家 如 果 看 不 懂 上 述 输出 中 列 的 含义 ， 那 是 正常 的 ， 千 万 不 要 纠结 。 这 里 
把 它们 都 列 出 来 只 是 为 了 描述 一 个 轮廓 ， 让 大 家 有 一 个 大 致 的 印象 。 下 面 会 细 细 道 来 ， 等 说 完 
了 后 不 信 你 不 懂 。 

为 了 故事 的 顺利 发 展 ， 我 们 还 是 要 请 出 前 面 已 经 用 了 好 多 遍 的 single table 表 。 为 了 防止 
大 家 遗 息 ， 这 里 再 把 它 的 结构 描述 一 下 : 


CREATE TABLE single table ( 
id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR (100), 
key2 INT, 
key3 VARCHAR (100), 
key_partl VARCHAR (100), 
key_part2 VARCHAR(100), 
key_part3 VARCHAR (100), 
common field VARCHAR (100) ， 
PRIMARY KEY (id), 
KEY idx keyl (keyl)， 
UNIQUE KEY uk key2 (key2), 
KEY idx key3 (key3), 
KEY idx key part (key partl, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 


仍然 假设 有 两 个 与 single_table 表 的 构造 一 模 一 样 的 表 : sl 表 和 s2 表 。 而 且 ， 这 两 个 表 里 
面 各 有 10,000 条 记录 ， 除 id 列 外 的 其 余 列 都 插入 随机 值 。 为 了 让 大 家 有 比较 好 的 阅读 体验 ， 
下 面 并 不 准备 严格 按照 EXPLAIN 输出 列 的 顺序 来 介绍 这 些 列 ， 请 大 家 注意 。 


15.1 执行 计划 输出 中 各 列 详解 
15.1.1 table 


无 论 我 们 的 查询 语句 有 多 复杂 ， 里 面包 含 了 多 少 个 表 ， 到 最 后 也 是 对 每 个 表 进 行 单 表 访 
问 。 所 以 设计 MySQL 的 大 叔 规定 : EXPLAIN 语句 输出 的 每 条 记录 都 对 应 着 某 个 单 表 的 访问 方 
法 ， 该 条 记录 的 table 列 代表 该 表 的 表 名 。 我 们 看 一 条 比较 简单 的 查询 语句 : 


mysql> EXPLAIN SELECT * FROM sl; 
+ 一 一 一 一 + 一 一 一 








一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 ——— 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 于 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 
二 一 一 一 下 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 二 ~ 一 -一 -一 -一 ~ 一 一 一 一 一 一 人 一 -一 -一 一 一 -- 一 ~ 一 -~- 二 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 
| 1 | SIMPLE | s1 | NULL | ALL | NULL | NULL | NULL | NULL | 9688 | 100,.00 | NULL | 
+ 一 一 一 一 二 一 一 一 一 一 一 一 一直 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 个 一 一 一 一 一 个 一 一 一 一 一 一 一 一 一 个 一 一 一 一 一 一 二 一 一 一 -一 一 二 一 一 一 一 一 一 一 一 一 #4 一 一 一 一 一 一 一 十 





1 row in set, 1 warning (0.00 sec) 
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这 条 查询 语句 只 涉及 对 sl 表 的 单 表 查询 ， 所 以 EXPLAIN 输出 中 只 有 一 条 记录 。 其 中 table 


列 的 值 是 s1， 表 明 这 条 记录 用 来 说 明 对 sl 表 的 单 表 访 问 方法 (输出 结果 中 的 其 他 列 先 暂时 不 
关心 ， 稍 后 会 依次 啼 趾 的)。 


SZs 


mysql> EXFLAIN SELECT * FROM s1 INNER JOIN s2; 
4 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 -+ 一 





下 面 看 一 下 一 个 连接 查询 we 


| id | select type | table | partitions | type | possibje keys | key | key len | ref | rows | ftered | Extra 
一 一 一 一 一 一 一 一 一 于 一 -一 -一 一 一 -一 人 一 一 一 一 一 一 -一 -一 一 -+ 一 -一 一 








1 1 | SIMPLE | $1 | NULL 】 ALL | BULL | WUILL | NULL 


| 1 1 SIMPLE | s2 | WULL 1 ALL | WILL | WUILL | WILL 
4 


| NULL | 3688 | 100.00 | WILL | 
| WULL | 9954 | 100.00 | Using join boffer (Biock Nested loop) | 
+ 


姓 一 一 一 一 一 一 他 一 一 = 一 一 一 一 一 一 一 人 一 一 一 -人 一 一 一 一 一 一 一 个 = 一 一 一 





mm 











2 ZXow in set, 1 warning 10.01 sec) 


可 以 看 到 ， 这 个 连接 查询 的 执行 计划 中 有 两 条 记录 ， 这 两 条 记录 的 table 列 分 别 是 sl 和 
这 两 条 记录 用 来 分 别 说 明 对 | 表 和 s2 表 的 访问 方法 是 什么 。 


| 


i195.12 id 


我 们 知道 ， 查 询 语句 一 般 都 以 SELECT 关键 字 开 头 。 比 较 简单 的 查询 语句 中 只 有 一 个 


SELECT 关键 字 ， 比 如 下 面 这 个 查询 语句 : 


SELECT * FROM sl WHERE keyl = Pa'’; 


稍微 复杂 一 点 的 连接 查询 中 也 只 有 一 个 SELECT 关键 字 。 比 如 


SELECT * FROM S1 INNER JOIN s2 
ON sl.keyl = s2.keyl 
WHERE sl .common field = al》 


但 是 在 下 面 这 两 种 情况 下 ， 一 条 查询 语句 中 会 出 现 多 个 SELECT 关键 字 。 
e 查询 中 包含 子 查 询 A 比如 下 面 这 个 查询 语句 中 就 包含 2 个 SELECT 关键 字 : 


SELECT * FROM sl 
WHERE keyl IN (SELECT key3 FROM 5s2); 


e@ 查询 中 包含 UNION 子 句 的 情况 。 比 如 下 面 这 个 查询 语句 中 就 包含 2 个 SELECT 关键 字 : 


SELECT * FROM s1 UNION SELECT * FROM s2; 


查询 语句 中 每 出 现 一 个 SELECT 关键 字 ， 设 计 MySQL 的 大 叔 就 会 为 它 分 配 一 个 唯一 的 id 





值 ， 这 个 id 值 就 是 EXPLAIN 输出 的 第 一 列 。 比 如 下 面 这 个 查询 中 只 有 一 个 SELECT 关键 字 ， 
所 以 EXPLAIN 的 结果 中 也 就 只 有 一 条 id 列 为 1 的 记录 : 


| 
mysql> EXPLAIN SELECT * FROM 51 WHERE keyl = 'a'; 
一 一 一 二 一 一 一 一 一 一 一 一 一 一 








— 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | ftered | Extra | 
+ 一 一 一 一 + 一 一 一 一 一 一 ~ 一 一 一 一 一 一 一 一 一 + 一 + 
| 1 | SIMPLE | s1 | NULL | ref | idx keyl | idx keyl | 303 | const | 8 | 100.00 | NULE | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 -一 -一 -一 -一 + 一 一 一 + 一 一 一 一 一 一 二 一 一 一 











1 row in set, 1 warning (0.03 sec) | 


对 于 连接 查询 来 说 ， 一 个 SELECT 关键 字 后 面 的 FROM 子 句 中 可 以 跟随 多 个 表 。 在 连接 


查询 的 执行 计划 中 ， 每 个 表 都 会 对 应 一 条 记录 ， 但 是 这 些 记录 的 id 值 都 是 相同 的 。 比 如 : 


一 
er 
E 
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mysql> FXPLAIN SELECT * FROM sl INNER JOIN s2; 


4 
| id | select_type | table | partitions | type | possible keys | key | key_ lien | ref | rows | flitered | Extra | 
一 


———————-——* 
| 1 | SDPIE 1 31 | WULL | ALL 1 EL | WILL | WULL | WOLL | 9688 | 100.00 | WULL | 
| 1 1 SDPLE 1 #2 | WLL | ALL | WOULL 1 WILL | WUOLL | WULL | 9954 | 100.00 | Using join buffer (Bliock Wested Loop) | 
2 rows in set, 1 warning (0.01 sec) 


可 以 看 到 在 上 述 连接 查询 中 ， 参 与 连接 的 sl 和 s2 表 分 别 对 应 一 条 记录 ， 但 是 这 两 条 记录 
对 应 的 id 值 都 是 1。 这 里 需要 大 家 记 住 的 是 : 在 连接 查询 的 执行 计划 中 ， 每 个 表 都 会 对 应 一 条 
记录 ， 这 些 记录 的 id 列 的 值 是 相同 的 ;出 现在 前 面 的 表 表 示 驱 动 表 ， 出 现在 后 面 的 表 表示 被 
驱动 表 。 所 以 从 上 面 的 EXPLAIN 输出 中 可 以 看 出 ， 查 询 优 化 器 准备 让 sl 表 作 为 驱动 表 ， 让 
s2 表 作 为 被 驱动 表 来 执行 查询 。 

对 于 包含 子 查询 的 查询 语句 来 说 ， 就 可 能 涉及 多 个 SELECT 关键 字 。 所 以 在 包含 子 查 询 
的 查询 语句 的 执行 计划 中 ， 每 个 SELECT 关键 字 都 会 对 应 一 个 唯一 的 这 值 。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT * FROM 51 WHERE keyl IN (SELECT keyl FROM 52) OR key3 = 'a'; 
一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 




















下 一 一 一 一 -一 一 一 一 一 一 一 一 -一 人 一 一 一 一 一 + 一 一 一 一 一 一 —— 一 + 一 -一 一 一 一 人 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | 五 Itered | Extra | 
一 + 
| 1 | PRIMARY | si | NULL | ALL, | idx key3 | NULL | NULL | NULL | 9688 | 100.00 | Using where | 
| 2 | SUBOUERY | 52 | NULL | index | idx kxeyl | idx keyl | 303 1 NULL | 9954 | 100.00 | Using index | 


一 一 个 一 一 一 一 一 











一 一 + 
2 rows in set, 1 warning (0.02 sec) 


从 输出 结果 中 可 以 看 到 ，sl 表 在 外 层 查 询 中 ， 外 层 查 询 有 一 个 独立 的 SELECT 关键 字 ， 
所 以 第 一 条 记录 的 id 值 就 是 1; s2 表 在 子 查询 中 ， 子 查询 有 一 个 独立 的 SELECT 关键 字 ， 所 
以 第 二 条 记录 的 id 值 就 是 2。 

这 里 需要 特别 注意 ， 查 询 优 化 器 可 能 对 涉及 子 查询 的 查询 语句 进行 重 写 ， 从 而 转换 为 连接 
查询 (当然 这 里 指 的 是 半 连 接 )。 如 果 想 知道 查询 优化 器 对 某 个 包含 子 查 询 的 语句 是 否 进 行 了 
重 写 ， 直 接 查看 执行 计划 就 好 了 。 比 如 : 

mysqli> EXPLAIN SELECT * FROM 351 WHERE keyl IN (SELECT key3 FROM 52 WIERE cocomon field = ‘a')} 


一 从 


和 
1 iG | select type | table | partiticns | type | possibie keys | key | key len | ref | rows | tered | Extra | 
一 一 + 一 一 一 一 一 一 一 一 


EN 
1 1 | SIPIZ | 32 | WOLL | ALL | idx key3 1 WiLL 1 WELL | 了 DLL 1 3554 | 10.00 | Using where; Start tenporary | 
1 1 | SLE | a1 | MHL | ref | idx key} 1 idx key} | 303 | xiacohaizi, s2.key3 | 1 1 100.00 | End tesporary | 





2 rows in set, 1 warning (0,00 sec) 


可 以 看 到 ， 虽 然 查 询 语句 中 包含 一 个 子 查询 ， 但 是 执行 计划 中 sl 和 s2 表 对 应 的 记录 的 id 
值 全 部 是 1， 这 就 表明 查询 优化 器 将 子 查询 转换 为 了 连接 查询 。 

对 于 包含 UNION 子 句 的 查询 语句 来 说 ， 每 个 SELECT 关键 字 对 应 一 个 id 值 也 是 没 错 的 ， 
不 过 还 是 有 点 儿 特 别 的 东西 。 比 如 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT *。 FROM sl UNION SELECT * FROM s2; 











一 一 一 一 一 一 一 一 一 全 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 人 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | ftered | Extra | 
本- 一 一 一 -一 一 一 - 一 一 二 一 一 一 一 -一 一 人 一 - 一 一 一 一 一 一 人 一 一 -一 一 一 一 -- 下 一 一 -一 人 一 一 一 一 一 人 一 一 一 一 一 一 一 人 一 一 一 一 -一 一 一 一 一 --- -一 一 一 一 
| 1 | PRIMARY | 51 | NULL | AD | NULL | NULL | NULL | NULL | 9688 | 100.00 | NULL | 
| 2 | UNION | 82 | NULL | ALL | NULL | NULL | NULL | NOLL | 9954 | 100.00 | NULL | 
| NULL | UNION RESULT | <unionl,2> | NULL | ALL | NULL | NULL | NULL | NULL | NULL | NULL | Using temporary | 

一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 也 











3 rows in set, 1 warning (0.00 sec) 


这 个 语句 的 执行 计划 的 第 3 条 记录 是 个 什么 鬼 ? 为 哈 id 值 是 NULL， 而 且 table 列 长 得 也 
怪 怪 的 ? 大 家 别 忘 了 UNION 子 句 是 干 嘛 用 的 ， 它 会 把 多 个 查询 的 结果 集合 并 起 来 并 对 结果 集 


ss TE WS 9 OM WW a) ST OEE WS Ty WP 


中 的 记录 进行 去 重 。 怎 么 去 重 昵 ?MySQL 使 用 的 是 内 部 临时 表 。 正 如 上 面 的 查询 计划 中 所 示 ， 
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UNION 子 句 为 了 把 id 为 1 的 查询 和 id 为 2 的 查询 的 结果 集合 并 起 来 并 去 重 ， 在 内 部 创建 了 一 | 
个 名 为 <union1, 2> 的 临时 表 (就 是 执行 计划 第 3 条 记录 的 table 列 的 名 称 )，id 为 NULL 表明 
这 个 临时 表 是 为 了 合并 两 个 查询 的 结果 集 而 创建 的 。 

与 UNION 比 起 来 ，UNION ALL 就 不 需要 对 最 终 的 结果 集 进行 去 重 。 它 只 是 单纯 地 把 多 
个 查询 结果 集中 的 记录 合并 成 一 个 并 返回 给 用 户 ， 所 以 也 就 不 需要 使 用 临时 表 。 所 以 在 包含 
UNION ALL 子 句 的 查询 的 执行 计划 中 ， 就 没有 那个 id 为 NULL 的 记录 ， 如 下 所 示 : 


mysql> EXPLAIN SELECT * FROM 51 UNION ALL SELECT * FROM s2; 
+ 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 -一 一 一 -+ 一 一 一 一 一 














一 一 二 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 
| id | select type | table | partitipns | type | possible keys | key | key_len | ref | rows | fitered | Extra | 
4 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 -一 一 二- 一 一 一 一 一 一 -二 -一 一 一 -一 一 一 一 + 一 一 一 一 一 一 一 + 

| 1 | PRIMARY | sl | NULL | | ALL | NULL | NULL | NULL | NULL | 9688 | 100.00 | NULL | | 
| 2 | UNION | s2 | NULL 1 ALL | NULL | NULL | NULL | NULL | 9954 | 100.00 | NULL | 
+ 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 +— 一 -一 一 EE 一 -一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 一 一 一 十 ~- 一 一 ~ 一 一 一 一 一 十 ~ 一 一 一 一 一 一 十 

2 rows in set, 1 warning (0.01 sec) ] 
2 ”在 MySQL 5.6 以 及 之 前 的 版 本 中 ,执行 UNIONAIE 语 多 可 能 也 会 用 到 临时 表 ， 这， 
> 、 , wa > » p> Mts Eh a fs Ke Epo 和 > Par rs ee 二 
一 注 A 仙 生 人 2 下 SN el 
小 贴 士 点 需要 注意 . ' | | dt Pd ; Sth Rb - 请 
‘4 CaS EY 7 





15.1.3 Select type 

通过 前 文 得 知 ， _ 条 大 的 查 绝 语句 里 面 可 以 包含 若干 个 SELECT 关键 字 ， 每 个 SELECT 
关键 字 代 表 着 一 个 小 的 查询 语句 。 而 每 个 SELECT 语句 的 FROM 子 句 中 都 可 以 包含 若干 张 表 
(这 些 表 用 来 进行 连接 查询 ) ， 每 一 张 表 都 对 应 着 执行 计划 输出 中 的 一 条 记录 。 对 于 在 同一 个 “ 
SELECT 关键 字 中 的 表 来 说 ， 它 们 的 id 值 是 相同 的 。 

设计 MySQL 的 大 权 为 每 一 个 SELECT 关键 字 代 表 的 小 查询 都 定义 了 一 个 名 为 select type 的 
属性 。 只 要 我 们 知道 了 某 个 小 查询 的 select type 属性 ， 也 就 知道 了 这 个 小 查询 在 整个 大 查询 中 扮 
演 一 个 什么 角色 。 空 口 无 凭 ， 我 们 还 是 先 来 见识 一 下 这 个 select type 都 能 取 哪 些 值 (为 了 精确 起 
见 ， 我 们 直接 使 用 文档 中 的 英文 进行 简要 描述 ， 随 后 会 进行 详细 解释 ) ， 如 表 15-2 所 示 。 


表 15-2 select_ type 的 取 值 


名 称 描述 
SIMPLE Simple SELECT (not using UNION or subqueries) 
PRIMARY Dutermost SELECT 
UNION econd or later SELECT statement in a UNION 
UNION RESULT Result of a UNION 
SUBQUERY First SELECT in subquery 
DEPENDENT SUBQUERY First SELECT in subquery, dependent on outer query 
DEPENDENT UNION Second or later SELECT statement in a UNION, dependent on outer query 
DERIVED Derived table 
MATERIALIZED Materialized subquery 
A subquery for which the result cannot be cached and must be re-evaluated 
UNCACHEABLE SUBQUERY | 
for each row of the outer query 
EReacahAatataeg The second or later select in a UNION that belongs to an uncacheable 


subquery (see UNCACHEABLE SUBQUERY) 
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英文 描述 太 简单 ， 不 知道 说 了 啥 ? 来 详细 本 本 里 面 的 每 个 值 都 是 于 哈 使 的 。 
e@ SIMPLE : 查询 语句 中 不 包含 UNION 或 者 子 查询 的 查询 都 算 作 SIMPLE 类 型 。 比 如 下 
面 这 个 单 表 查询 的 select type 的 值 就 是 SIMPLE : 


mysql> EXPLAIN SELECT * FROM sl; 

















| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 

二 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 

| 1 | SIMPLE | sl | NULL | ALL | NULL | NULL | NULL | NULL | 9688 | 100.00 | NULL | 
一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 

1 row in set, 1 warning (0.00 sec) 

当然 ， 连 接 查 询 的 select type 值 也 是 SIMPLE。 比 如 : 

mysql> EXPLAIN SELECT * FROM 51 INNER JOIN s2}; 

| 44 | select type | table | partitions | type | possible keys | key | key len | ref | rows | 和 Itered | Extra | 

让 一 一 一 一 下 一 一 ——+ 

| 1 | SIMPLE | s1 | NULL | ALL | NULL, | NULL | NULL | NULL | 9688 | 100.00 | NULL | 

| 1 | SIMPLE | s2 | NULL | ALL | WOLL | NULL | WOLL | NULL | 9954 | 100.00 | Using join buffer [Block Wested Loop) | 
一 


2 rows in sets 1 warning (0.01 sec) 


e@ PRIMARY : 对 于 包含 UNION、UNION ALL 或 者 子 查询 的 大 查询 来 说 ， 它 是 由 几 个 
小 查询 组 成 的 ;其 中 最 左边 那个 查询 的 select type 值 就 是 PRIMARY。 比 如 : 


mysql> EXPLAIN SELECT * FROM sl UNION SELECT * FROM s2; 














| id | select type | table | partitions | type | Possible keys | key | key len | ref | rows | flitered | Extra | 

| 1 | PRIMARY | sl | NULL | AL | NULL | NULL | NULL | NULL | 9688 | 100.00 | NULL | 

| 2 | UNION | 52 | NULL | ALL | NULL | NULL | NULL | NULI | 9954 | 100.00 | NULL | 
一 一 一 一 一 一 一 一 一 一 一 信 一 一 一 








| NULL | UNION RESULT | <unionl,2> | NULL | ALL | NULL | NOLL | NULL | NULL | NULL | NULL | Using temporary | \ 
和 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 


3 rows in set, 1 warning (0.00 sec) 


从 结果 中 可 以 看 到 ， 最 左边 的 小 查询 SELECT * FROM sl 对 应 的 是 执行 计划 中 的 第 一 条 
记录 ， 它 的 select type 值 就 是 PRIMARY。 
e UNION : 对 于 包含 UNION 或 者 UNION ALL 的 大 查询 来 说 ， 它 是 由 几 个 小 查询 组 成 。“ 
的 ; 其 中 除了 最 左边 的 那个 小 查询 以 外 ， 其 余 小 查询 的 select type 值 就 是 UNION。 大  “. 
家 可 以 对 比 上 一 个 例子 的 效果 ， 这 里 就 不 多 举例 子 了 。 
e UNION RESULT : MySQL 选择 使 用 临时 表 来 完成 UNION 查询 的 去 重工 作 ， 针 对 该 临 
时 表 的 查询 的 select type 就 是 UNION RESULT。 例 子 在 前 文中 有 ， 这 里 不 袭 述 了 。 
e SUBQUERY : 如 果 包 含 子 查询 的 查询 语句 不 能 够 转 为 对 应 的 半 连 接 形 式 ， 并 且 该 
子 查询 是 不 相关 子 查询 ， 而 且 查询 优化 器 决定 采用 将 该 子 查询 物化 的 方案 来 执行 该 
子 查询 时 ， 该 子 查询 的 第 一 个 SELECT 关键 字 代表 的 那个 查询 的 select type 就 是 
SUBQUERY 。 比 如 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl IN (SELECT keyl FROM s2) OR key3 = 'a'; 
种 一 一 一 





一 二 一 一 一 一 一 一 一 一 一 一 一 一- 一 一 人 一 ~ 一 -一 -一 一 | 一 -- 一 -一 人 一 一 一 一 + 一 








一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 人 
| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | flitered | Extra | 
4 一 一 一 下 一 一 一 一 一 下 ~ 人 
| 1 | PRIMARY | sl1 | NULL | ALL | idx key3 | NULL | NULL | NULL | 9688 | 100.00 | Using where | 
| 2 | SUBOUERY | s2 | NULL | index | idx keyl | idx keyl | 303 | NULL | 9954 | 100.00 | Using index | 











| 
2 rows in set, 1 warning (0.00 sec) 


可 以 看 到 ， 外 层 查 询 的 select type 就 是 PRIMARY， 子 查询 的 select type 就 是 SUBQUERY。 
需要 大 家 注意 的 是 ， 由 于 select_type 为 SUBQUERY 的 子 查 询 会 被 物化 ， 所 以 该 子 查询 只 需要 


了 2 





执行 一 遍 。 
e DEPENDENT SUBQUERY : 如 果 包 含 子 查 询 的 查询 语句 不 能 够 转 为 对 应 的 半 连 接 


形式 ， 并 且 该 子 查 询 被 查询 优化 器 转换 为 相关 子 查询 的 形式 ， 则 该 子 查询 的 第 一 个 


SELECT 关键 字 代表 的 那个 查询 的 select type 就 是 DEPENDENT SUBQUERY。 比 如 下 
面 这 个 查询 : 


myaql> EXPLAIN SELECT * FROM s1 WiERE xeyl IN (SELECT keyl FROM s2 WEEFE sl.key2 = 82.key2) OR key3 = 'a'; 
$$—-——$—-——--—-———————— 


一 一 一 -一 -一 - -~ 一 - -一 一 一 一 人 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4 一 一 一 一 一 








一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| id | select type | table | partitions | type | possible keys 1 key | key_len | roef 1 rows | fltered | Exrra 1 
+—— 一 一 一 一 一 一 一 一 一 

| 1 | PRIMARY 1 si | NULL 1 NT | idx_key3 | NULL | NULL | NULL | 9688 | 100.00 | Using where | 
| 2 | DEPENDENT SUBQUERY | s2 | NULL | ref | idx key2,idx keyl | idx key2 | 5 | xiaohaizi.si.key2 | i111 10.00 | Using where | 
4 一 一 - -4 一 一 一 一 一 + 


需要 大 家 注意 的 是 ，select type 为 DEPENDENT SUBQUERY 的 子 查询 可 能 会 被 执行 多 次 。 

e DEPENDENT UNION : 在 包含 UNION 或 者 UNION ALL 的 大 查询 中 ， 如 果 各 个 小 查 
询 都 依赖 于 外 层 查 询 ， 则 除了 最 左边 的 那个 小 查询 之 外 ， 其 余 小 查询 的 select type 的 
值 就 是 DEPENDENT UNION。 说 的 有 些 绕 ， 我 们 来 看 下 面 这 个 查询 : 


入 EXPIAIN SELECT * FROM sl WHERE keyl IN (SHLECT keyl FROM s2 WHERE keyl ~ 
一 一 一 一 一 一 一 一 一 人 一 一 一 一 一 


一 ~ 一 一 4 一 


”UNION SELECT keyl FROM 5 WERE keyl = 'b'); 





+ 
| er JR | table i we a ene key | Kkey len | ref | rows | ftered | Extra 1 
一 一 一 一 一 一 -— - -一 --- 一 一 -一 一 4 一 一 一 一 一 一 一 一 ee A ee ED DD 
| 1 | PPFDRY | 时 | WULL | ALL | WILL | WUEL | NULL | WULL | S588 | 100.00 | Using where I 
| 2 | DEPENDENT SUBOUERY | s2 | NULL | ref | idx_ keyl | idx keyl | 303 | const | 32 1 100.00 | Using where; Using index | 
| 3 | DEPENDENT UNION | sl | NULL | ref | idx_keyl | idx_keyl | 303 | const | 8 | 100.00 | Using wherej Using index | 
| NULL | UNION RESULT | <union2,3> | NULL | ALL | WULL 1 NULL | NULL | NOLL | NULL | WULL | Using temporary 1 
和 一 一 一 一 和 一 一 一 一 一 








4 rows in set, 1 warning (0.03 sec) | 


这 个 查询 比较 复杂 ， 大 查询 中 包含 了 一 个 子 查询 ， 子 查询 中 又 包含 由 UNION 连 起 来 的 两 
个 小 查询 。 从 执行 计划 中 可 以 看 出 ，SELECT keyl FROM s2 WHERE keyl = 'a 这 个 小 查询 由 
于 是 子 查 询 中 的 第 一 个 查询 ， 所 以 它 的 select type 是 DEPENDENT SUBQUERY ; 而 SELECT 
keyl FROM sl WHERE keyl = 'b' 这 个 小 查询 的 select_type 就 是 DEPENDENT UNION.。 

e@ DERIVED : 在 包含 派生 表 的 查询 中 ， 如 果 是 以 物化 派生 表 的 方式 执行 查询 ， 则 派生 表 

对 应 的 子 查询 的 select rad 就 是 DERIVED。 比 如 下 面 这 个 查询 : 











-———————-—+—— 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 下 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 直 
1 ia | elect type | table i pt | jxey_len | ref | rows | filtered | Extra | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 | 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 1 | PRIMARY 1 | | ALL | NULL | NULL | NULL | NULL | 9688 | 33.33 | Using where | 
| 2 | DERIVED | si | NULL | index | idx keyl | idx_keyl | 303 | NULL | 9688 | 100.00 | Using index | 
一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 + 一 一 一 一 ———————+ 


2 rows in set, 1 warning {0.00 sec) | 


从 执行 计划 中 可 以 看 出 ，id 为 2 的 记录 就 代表 子 查 询 的 执行 方式 ， 它 的 select type 是 
DERIVED， 说 明 该 子 查询 是 以 物化 的 方式 执行 的 。id 为 1 的 记录 代表 外 层 查 询 ， 大 家 注意 看 
它 的 table 列 显示 的 是 <derived2>， 表 示 该 查询 是 针对 将 派生 表 物 化 之 后 的 表 进 行 查询 的 。 


5 如 果 包 含 派生 表 的 查询 可 以 通过 ee FR 扫 
小 贴 十 ”是 另 一 香 景 俏 ， 二 EE 





ES De pr 
Re 和 


* a 
: a : Rt - 7 
J = 和 | 


4 [4 


© MATERIALIZED : 当 查询 优化 器 在 执行 包含 子 查询 的 语句 时 ， 选择 将 子 查询 物化 之 后 
与 外 层 查询 进行 连接 查询 ， 该 子 查 询 对 应 的 select type 属性 就 是 MATERIALIZED。 比 


一 全 一 
—————— 

i ———— Es 
本 ae 
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如 下 面 这 个 查询 : 

mysql> EXPLAIN SELECT * FROM s1 WHERE keyl IN (SELECT keyl FROM 52); 

+ 
1 id | select type | table 1 partitions | type | possible keys | key | key len | ref | rows | fitsred | Peer | 
i —— 
| 1 1 SIyPIZ 1 si 1 EL 1 Aly | idx keyl | WILL | WI 上 于 天 1 9688 | 100.00 | Using where | 
| 1 | SIMPIE | <subquery2> | WILL | eq raf | <auto key> | <auto_key> | 303 | xiaschaizi.sl.keyl | z 1 100.00 | NI | 
| 2 1 WIERIALIZED | s2 | WoL | index | icdx keyl | Scix keyl 1 303 | BEE 1 9954 | 100.00 1 Using index | 





3 rows in set, 1 warning (0.01 sec) 


执行 计划 的 第 3 条 记录 的 select type 值 为 MATERIALIZED。 可 以 看 出 ， 查 询 优 化 器 是 
把 子 查 询 先 转换 成 物化 表 。 执 行 计划 的 前 两 条 记录 的 id 值 都 为 1， 说 明 这 两 条 记录 对 应 的 表 
进行 的 是 连接 查询 。 需 要 注意 的 是 ， 第 二 条 记录 的 table 列 的 值 是 <subquery2>， 说 明 该 表 其 
实 就 是 执行 计划 中 id 为 2 对 应 的 子 查 询 执 行 之 后 产生 的 物化 表 ; 然后 再 将 sl 和 该 物化 表 进 
行 连接 查询 。 

e UNCACHEABLE SUBQUERY : 不 常用 ， 不 说 了 。 

e UNCACHEABLE UNION : 不 常用 ， 不 说 了 。 


15.1.4 partitions 


由 于 我 们 压根 儿 就 没 踪 功 过 分 区 是 啥 ， 所 以 这 个 输出 列 也 就 不 多 说 了 。 在 我 们 目前 遇 到 的 
查询 语句 中 ， 其 执行 计划 的 partitions 列 的 值 都 是 NULL。 


15.1.5 type 


前 面 说 过 ， 执 行 计划 的 一 条 记录 代表 着 MySQL 对 某 个 表 执 行 查询 时 的 访问 方法 ， 其 中 的 
type 列 就 表明 了 这 个 访问 方法 是 喻 。 比 如 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM 51 WHERE keyl = 'a'; 




















| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | fitered | Extra | 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 二 一 一 一 一 —— 一 一 一 一 一 一 一 人 一 一 一 一 一 一 一 个 
| 1 1 SIMPLE | sl | NULL | ref | idx keyl | idx keyl | 303 | const | 8 1 100.00 | NULL | 


4 一 + 一 一 一 一 一 一 一 一 一 一 
1 row in set, 1 warning (0.04 sec) 


可 以 看 到 type 列 的 值 是 ref， 表 明 MySQL 即将 使 用 ref 访问 方法 来 执行 对 sl 表 的 查询 。 
但 是 前 面 只 啼 嘱 过 对 使 用 InnoDB 存储 引擎 的 表 进 行 单 表 访问 的 一 些 访问 方法 。 完 整 的 访问 方 
法 有 system、const、eq _ref、 ref、fulltext、ref or null、index merge、unique subquery、index 
subquery、range、index、ALL 等 。 我 们 详细 啼 叫 一 下 这 些 访问 方法 。 

@ system : 当 表 中 只 有 一 条 记录 并 且 该 表 使 用 的 存储 引擎 (比如 MyISAM、MEMORY) 

的 统计 数据 是 精确 的 ， 那 么 对 该 表 的 访问 方法 就 是 system。 上 比如， 我 们 新 建 一 个 
MyISAM 表 ， 并 为 其 插入 一 条 记录 : 


mysql> CREATE TABLE t(i int) Engine=MyISAM; 
Query OK, 0 rows affected (0.05 sec) 














一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 


mysql> INSERT INTO t VALUES (1); 
Query OK, 1 row affected (0.01 sec) 


然后 看 一 下 查询 这 个 表 的 执行 计划 : 








7” 


NE ME CE 


SE 





| 15.1 ”执行 计划 输出 中 各 列 详解 。 253 


mysql> EXPLAIN SELECT * FROM {t; 





下 一 一 一 全 一人 一 一 一 人 一 一 + 一 -一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 -一 一 -一 一 一 | -一 一 一 一 -二 
| id | select type | table | partitions | type | Possible keys | key | key len | ref | rows | filtered | Extra | 
十 一 一 一 一 个 一 一 一 -一 ~ 一 -一 一 一 -一 和 一 一 一 一 一 一 上 一 一 一 一 一 一 一 一 上 一 一 一 修一 一 一 一 --- 一 一 一 一 一 一 二 一 一 一 一 -一 -一 一 一 人 一 一 一 一 一 
| 1 | SIMPLE Le | NULL | system | NULL | NULL | NULL | NULL | 1 1 100.00 | NULL | 
+ 一 一 一 -十 ~ 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 


1 row in set, 1 warning (0.00 sec) 


可 以 看 到 type 列 的 值 就 是 system 了 。 








2 大 家 可 以 把 下 记 全 用 pon fale 然后 看 看 扫 行 计划 的 rete 人 了 
小 贴 士 | 全 人 


A 
Rh 


e const : 这 个 在 前 文 啼 明 过 ， 当 我 们 根据 主键 或 者 唯一 二 级 索引 列 与 常数 进行 等 值 匹配 
时 ， 对 单 表 的 访问 方法 Re connt. 比如 : 


ee 5; 

















+ 一 一 -一 + 一 -一 一 一 一 一 一 ? =- -一 一 -一 一 一 -一 一 

| id | select type | table | partitiohs | type | possible keys | key | key len | ref | rows | filtered | Extra | 
二 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 

| 1 | SIMPLE | si | NULL 1 const | PRIMARY | PRIMARY | 4 | const | 1 1 100.00 | NULL | 
4- 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 | 一 一 一 一 -上 -一 








em 





1 row in set, 1 warning (0.01 sec) 


e eq _ ref : 执行 连接 查询 时 ， 如 果 被 驱动 表 是 通过 主键 或 者 不 允许 存储 NULL 值 的 唯 
一 二 级 索引 列 等 值 匹配 的 方式 进行 访问 的 (如 果 该 主键 或 者 不 允许 存储 NULL 值 的 唯 
一 二 级 索引 是 联合 索引 ， 则 所 有 的 索引 列 都 必须 进行 等 值 比较 )， 则 对 该 被 驱动 表 的 访 
问 方法 就 是 eq_ref。 加 


mysql> EXPLAIN SELECT * FROM sl INNER JOIN s2 ON sl.id = s2.id; 








+—~ 一 -$+ 一 一 一 一 -一 一 一 一 一 -~ 一 一 

| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | filtered | Extra | 
一 一 一 一 一 一 一 一 

| 1 | SIMPLE | si | NULL | ALL | PRIMARY | NULL | NULL | NULL | 9688 | 100.00 | NULD | 
| 1 | SIMPLE | s2 | NULL | eq_ref | PRIMARY | PRIMARY | 4 | xiaohaizi.sl.id | 11 100.00 1 NOL | 
+ 一 一 一 一 + 一 一 一 一 一 一 一 一 一 








2 rows in set, 1 warning (0.01 sec) | 


从 执行 计划 的 结果 中 可 以 看 出 ，MySQL 打算 将 sl 作为 驱动 表 ， 将 s2 作为 被 驱动 表 。 可 
以 看 到 s2 的 访问 方法 是 eq_ref， 表 明 在 访问 s2 表 时 ， 可 以 通过 主键 的 等 值 匹 配 来 访问 。 
e ref : 当 通 过 普通 的 二 级 索引 列 与 常量 进行 等 值 匹配 的 方式 来 查询 某 个 表 时 ， 对 该 表 的 
访问 方法 就 可 能 是 ref (参见 15.1.5 节 最 开始 的 例子 )。 
另外 ， 如 果 是 执行 连接 查询 ， 被 驱动 表 中 的 某 个 普通 的 二 级 索引 列 与 驱动 表 中 的 某 个 列 进 
行 等 值 匹配 ， 那 么 对 被 驱动 表 也 可 能 使 用 ref 的 访问 方法 。 比 如 : 


mysql> EXPLAIN SELECT * FROM sl naan vom sz on aiat ~ = 52,keyl; 


十 一 一 一 一 全 一 一 一 一 一 











+ 

D3 ee ce 1 key_ len | ref | rows | flltered | Extra | 
二 一 一 一 一 一 一 一 一 一 + 一 一 一 一 

| 1 | SIMPLE | s2 | BULL MR > | ROLL | WLL | NULL | 9688 | 100.00 | Using where | 
| 1 | SIMPLE | sl | NULL | ref | idx keyl | idx keyl 1 303 | xiaohaizi.s2.keyl | 1 1 100.00 | NULL | 
十 一 一 一 一 个 一 一 一 一 ”一 ~ 一 一 一 一 个 ~ 一 一 一 一 一 一 一 一 一 一 PO 一 一 一 个 一 








e fulltext : 全 文 索引 ， 这 里 不 展开 讲解 。 


从 执行 计划 可 以 看 出 ，sl fe s2 作为 被 驱动 表 ， 此 时 对 s2 表 的 访问 方法 就 是 ref， 
e ref or_null : 当 对 普通 二 级 索引 列 进行 等 值 匹配 且 该 索引 列 的 值 也 可 以 是 NULL 值 时 ， 


i 
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对 该 表 的 访问 方法 就 可 能 是 ref_or_null。 比 如 : 
mysql> EXPLAIN SELECT * FROM sl WHERE keyl = 'a’ OR keyl 1S NULL; 
| a ee A Te 
证 于 
ES 


一 一 各 一 一 一 一 


1 row in set, 1 warning (0.01 sec) 


e index_merge : 一 般 情 况 下 只 会 为 单个 索引 生成 扫描 区 间 ， 但 是 我 们 在 啼 媚 单 表 访问 方 
法 时 ， 特 意 强调 了 在 某 些 场景 下 可 以 使 用 Intersection、Union、Sort-Union 这 3 种 索引 
合并 的 方式 来 执行 查询 (忘掉 的 读者 请 返回 去 补 一 下 )。 我 们 看 一 下 执行 计划 中 是 怎么 
体现 MySQL 使 用 索引 合并 的 方式 来 对 某 个 表 执 行 查 询 的 : 


mymgl> OLAIN SELECT * FROM nl WHERE kayl wa OR key3 = ‘a'? 
| 14d | salect rype | table | partirions | type | possible knys | key | kay lon | rof | rows | Titered | Extra 


和 
1 2 1 ss | a | WL | Spinx merge | Sdn jy Sc bey | Lox key idx jay | 003,03 | WEL | 1¢ | 100.00 | Using union {idx key}, icdx key Daimy where | 
和 


1 row in wet, } warning (0.0) sec) 


可 以 看 到 ， 执 行 计划 的 type 列 的 值 是 index merge， 即 MySQL 打算 使 用 索引 合并 的 方式 
来 执行 对 sl 表 的 查询 。 
e@ unique_subquery : 类 似 于 两 表 连 接 中 被 驱动 表 的 eq_ ref 访问 方法 ，unique subquery 
针对 的 是 一 些 包 含 IN 子 查询 的 查询 语句 。 如 果 查 询 优 化 器 决定 将 IN 子 查询 转换 
为 EXISTS 子 查询 ， 而 且 子 查询 在 转换 之 后 可 以 使 用 主键 或 者 不 允许 存储 NULL 值 
的 唯一 二 级 索引 进行 等 值 匹 配 ， 那 么 该 子 查询 执行 计划 的 type 列 的 值 就 是 unique 
subquery。 比 如 下 面 这 个 查询 语句 : 


mysql> EXPLAIN SELECT ”FROM sl1 WHERE common field IN (SELECT id FROM 52 where sl1.common field = s2.common field) OR key3 = ‘a'; 
一 








EEE EO 
| id |] select type | table | partitions | type | possible keys | key | key len | ref | rows | ftered | Extra | 
| 1 |} PRDARY | 51 | NULL | ALL | idx key3 | WULL | WULL | NULL | 9688 | 100.00 | Using where | 
| 2 | DEPENDENT SUBOUERY | 82 | NULL ,| uni9qoe subquery | PRIMARY | PRIMARY | 4 | func | 1 | 10.00 | Using where | 
ee 一 一 一 一 一 -一 一 一 一 





2 rows in set, 2 warnings (0.04 sec) 
可 以 看 到 ， 执 行 计划 第 二 条 记录 的 type 值 就 是 unique_subquery， 这 说 明 在 执行 子 查 询 时 
会 使 用 到 id 列 的 聚 簇 索 引 。 
e@ index_ subquery : index_subquery 与 unique subquery 类 似 ， 只 不 过 在 访问 子 查询 中 的 表 
时 使 用 的 是 普通 的 索引 。 比 如 : 


mysQl> EXPLAIN SELECT ”FROM 51 WHERE common field IN (SELECT key3 FROM s2 WHERE al,.common_ field = s2.common_field) OR key3 = ‘a'; 
4 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 本 一 一 一 4 一 一 -4$ 一 一- 一 -一 





+ 
| 40 | select type | table | partitions | type | possible kaeys | key | key Jen | ref | rows | fiitered | Extrs | 
ee 
| 1 1 FIDMNRY | s1 | WULL | ALL | idx_ key3 | NULL } WULL | NULL | 9688 | 100.00 | Using where | 
| 2 | DEPENDENT SUBOUERY | #2 | NULL | index subquery | idx key3 | idx key3 | 303 | func | Et 10.00 | Using where | 

一 一 一 一 一 4 一 一 一 一 一 一 一 一 一 一 +— 





-一 一 一 一 一 一 一 








一 一 


一 一 一 一 一 一 一 一 一 + 
2 rows in set, 2 warnings (0.04 sec) 


e range : 如 果 使 用 索引 获取 某 些 单 点 扫描 区 间 的 记录 ， 那 么 就 可 能 使 用 到 range 访问 方 
法 。 比 如 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM 81 WHERE keyl IN (‘a', 'b', 'c'); 











-一 一 一 一 一 一 一 一 一 + 
| id | select type | table | partitions | type | possible keys | kay | key_ len | ref | rows | fitered | Extra | 
和 一 一 
| 1 | SIMPIE | s1 | NULL | range | idx key] | icx keyl | 303 | NUEL | 27 | 100.00 | Using index condition | 
OO 一 一 + 一 一 一 


-+ 
1 row in set, 1 waming (0.01 sec) 
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或 者 用 于 获取 某 个 或 者 某 些 范围 扫描 区 间 的 记录 的 查询 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl > ,a AND keyl < 'b'; 
+ 一 一 -+ 一 一 人 一 一 








一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 i 


| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | fltered | Extra | 
下 


一 一 
| 1 | SIMPLE ds | NULL ee keyl | idx_keyl | 303 | NULL | 294 | 100.00 | Using index condition | 
+- 一 -一 + 一 一 一 -一 


1 row in set, oon 


e index : 当 可 以 使 用 索引 禾 盖 ， 但 需要 扫描 全 部 的 索引 记录 时 ， 该 表 的 访问 方法 就 是 
index。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT key part2 FROM sl WHERE key part3 = ‘a'; 
二 一 一 一 一 全 一 一 一 一 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 修一 一 一 一 一 一 一 一 

















一 一 一 一 一 一 一 一 一 











一 一 一 一 一 一 才 一 一 一 一 一 一 一 一 
Da So Sp ee pe 0 1 key_len | ref | rows | filtered | Extra | 
a ee 一 + 
| 1 | SIMPLE | s1 ey | idx key part | 909 | NULL | 9688 | 10.00 | Using where; Using index | 
二 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 地 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 十 一 一 一 -- 一 一 一 一 -- -一 一 一 一 一 一 -一 一 -一 一 一 一 人 一 一 一 一 -一 -- 一 一 --- 一 一 -一 -一 一 一 一 一 -一 一 一 


1 row in set, 1 warning (0.00 sec) 


上 述 查 询 的 查询 列表 中 只 有 bo _part2 一 个 列 ， 而 且 搜 索 条 件 中 也 只 有 key_part3 一 个 列 ， 
这 两 个 列 又 恰好 包含 在 idx key part 索引 中 。 但 是 ， 搜 索 条 件 key part3='a' 不 能 形成 合适 的 扫 
描 区 间 从 而 减少 需要 扫描 的 记录 数量 ， 而 只 能 扫描 整个 idx key part 索引 的 记录 ， 所 以 执行 计 
划 的 type 列 的 值 就 是 index。 





i 强调 一 下 ， 对 于 使 用 InnoDB 存储 引擎 的 表 来 说 ， 二 级 索引 叶子 节点 的 记录 只 
从: 包含 索引 列 和 主键 列 的 值 ， 而 聚 丛 索引 叶子 节点 中 包含 用 户 定义 的 全 部 列 以 及 一 


小 贴 十 些 隐藏 列 。 所 以 扫描 全 启 | a 
一 些 ， 


男 外 比较 特殊 的 一 点 是 ， 对 于 InnoDB 存储 引擎 来 说 ， 当 我 们 需要 执行 全 表 扫 描 ， 并 且 需 
要 对 主键 进行 排序 时 ， 此 时 的 type 列 的 值 也 是 index， 如 下 所 示 。 


mysql> EXPLAIN SELECT * FROM sS1 ORDER BY id; 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 








一 ~ 一 一 一 一 人 一 一 一 一 一 一 一 个 一 一 








二 一 一 一 





es 











| id | select type | table | RE 1 | type | possible keys | key | key_ len | ref | rows | fltered | Extra | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 -一 -一 + 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 
| 1 | SIMPLE | sl | NULL | | index | NULL | PRIMARY | 4 | NULL | 9688 | 100.00 | NULL | 
+ 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 4+- 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 





一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
1 row in set, 1 warning (0.02 sec) | 


e ALL : 最 熟悉 的 全 表 扫 描 ， 就 不 多 嘴 胃 了 。 直 接 看 例子 : 


mySsql> EXPLAIN SELECT * FROM S1; | 


CP 











一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 -+ 
| id | select type | table | partitions | type | possible keys | key | key _ len | ref | rows | filtered | Extra | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| 1 | SIMPLE | sl | NULL | TALL | NIIL | NULL | NULL | NULL | 9688 | 100.00 | NULL | 
+ 一 一 一 一 十 -一 一 一- 一 一 一 一 一 一 一 一 二 ~ 一 一 一 一 一 一 十 -一 一 一 一 一 一 ——— 一 一 十 -一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 





1 row in set, 1 warning (0.00 sec) 


一 般 来 说 ， 这 些 访问 方法 的 性 能 按照 我 们 介绍 它们 的 顺序 依次 变 差 (当然 这 不 是 绝对 的 ， 
还 取决 于 需要 访问 的 记录 数量 )。 





15.1.6 possible_ keys 和 key 
在 EXPLAIN i 名 输出 的 执 秆 计划 中 possible keys 列表 示 在 某 个 查询 语句 中 ， 对 某 个 


2 
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表 执 行 单 表 查询 时 可 能 用 到 的 索引 有 哪些 ; key 列表 示 实 际 用 到 的 索引 有 哪些 。 比 如 下 面 这 个 
查询 : 


mysgqi> EXPLAIN SELECT * FROM 51 WHERE keyl > 'z' AND key3 = "a'; 








和 一 一 一 一 一 一 一 一 全 一 + 

| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | flltered | Extra | 
一 一 -一 一 一人 一 一 人 一 一 一 一 

| 1 | SIMPLE | sl | NULL | ref | idx keyl,idx key3 | idx key3 | 303 | const | 6 | 2.75 | Using where | 
4 一 -二 一 一 -一 -一 -一 一 本 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 
1 row in set, 1 warning (0.01 sec) 


上 述 执 行 计划 的 possible keys 列 的 值 是 idx_keyl 和 idx key3， 表 示 该 查询 可 能 使 用 到 
idx keyl 和 idx key3 这 两 个 索引 。 然 后 key 列 的 值 是 idx_key3， 表 示 经 过 查询 优化 器 计算 不 
同 索 引 的 使 用 成 本 后 ， 最 后 决定 使 用 idx_key3 来 执行 查询 《因为 它 比 较 划 算 )。 

不 过 有 一 点 比较 特别 ， 就 是 在 使 用 index 访问 方法 查询 某 个 表 时 ，possible keys 列 是 空 的 ， 
而 key 列 展示 的 是 实际 使 用 到 的 索引 。 比 如 下 面 这 样 : 

mysql> EXPLAIN SELECT key_Part2 FROM sl WHERE key part3 = 'a’; 
| id | select type | table | partitions | type | possible keys | key ~ MN i | 


十 一 一 
| 1 | SIMPLE 1 381 | NULL | index | NULL 1 idx key Part | 309 | NULL | 9688 | 10.00 1 Using where; Using index | 
0 一 一 一 








1 row in set, 1 warning (0.00 sec) 


另外 需要 注意 的 一 点 是 ，possible keys 列 中 的 值 并 不 是 越 多 越 好 ， 可 以 使 用 的 索引 越 多 ， 
查询 优化 器 在 计算 查询 成 本 时 花费 的 时 间 就 越 长 。 如 果 可 以 的 话 ， 尽 量 删除 那些 用 不 到 的 
索引 。 


15.1.7 key_len 


我 们 在 前 文中 说 过 尤其 是 第 7 章 )， 当 我 们 决定 使 用 茶 个 索引 来 执行 查询 时 ， 首 先 要 搞 
清楚 对 应 的 扫描 区 间 ， 以 及 形成 该 扫描 区 间 的 边界 条 件 是 什么 。 我 们 看 下 面 这 个 查询 : 


SELECT * FROM S1 WHERE keyl > "a' AND keyl < 'b'; 


很 显然 ， 在 使 用 idx_keyl 索引 执行 查询 时 ， 对 应 的 扫描 区 间 就 是 (a, "b])， 形 成 该 扫描 区 
间 的 条 件 就 是 keyl > 'a AND keyl < "b'。 当 然 ， 这 个 结论 是 我 们 根据 经 验 得 出 的 ， 在 一 些 情况 
下 ， 我 们 希望 从 执行 计划 中 直接 可 以 看 出 形成 扫描 区 间 的 边界 条 件 是 什么 ， 这 时 候 执 行 计划 的 
key_len 列 就 派 上 用 场 了 。 上 述 语 句 的 执行 计划 如 下 所 示 : 


mySql> EXPLAIN SELECT * FROM 51 WHERE keyl > "ar AND keyl < 'b'; 
和 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 + 一 一 一 一 





一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 个 





PO EP CN 
| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | fitered | Extra | 
4#+- 一 -一 一 一 一 -一 一 -一 一 一 一 -一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 -----+---- 一 ---+---- 一 -+ 一 一 -一 一 + 一 -一 一 一 一 -人 一- 


一 一 一 一 一 一 一 一 一 一 一 一 


| 1 | SIMPLE | 81 | NULL | range | idx keyl 1 idx keyl | 303 | NULL | 294 | 100.00 | Using index condition | 
二 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 上 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 
1 row in set, 1 warning (0.00 sec) 


执行 计划 的 key_len 列 的 值 是 303， 这 个 303 是 怎么 来 的 呢 ? 原来 设计 MySQL 的 大 报 为 
边界 条 件 中 包含 的 列 都 维护 了 一 个 key len 值 。 该 key len 值 由 下 面 3 部 分 组 成 。 

e 该 列 的 实际 数据 最 多 占用 的 存储 空间 长 度 。 对 于 固定 长 度 类 型 的 列 来 说 ， 比 方 说 对 于 

INT 类 型 的 列 来 说 ， 该 列 实际 数据 最 多 占用 的 存储 空间 长 度 就 是 4 字 节 (当然 ， 对 于 

INT 类 型 的 列 来 说 ， 不 论 存 什么 数据 ， 实 际 数据 占用 的 存储 空间 长 度 都 是 4 字 节 )。 对 





———————— 一 一 一 4 
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| 
于 使 用 变 长 类 型 的 列 来 说 ， 比 方 说 对 于 使 用 utf8 字符 集 ， 类 型 为 VARCHAR(100) 的 列 
来 说 ， 该 列 的 实际 数据 最 多 占用 的 存储 空间 长 度 就 是 在 utf8 字符 集中 表示 一 个 字符 最 
多 占用 的 字 节 数 乘 以 该 类 型 最 多 可 以 存储 的 字符 数 的 积 ， 也 就 是 3X100 = 300 字 节 。 
® 如 果 该 列 可 以 存储 NULL 值 ， 则 key_len 值 在 该 列 的 实际 数据 最 多 占用 的 存储 空间 长 
度 的 基础 上 再 加 1 字 节 。 
ee 对 于 使 用 变 长 类 型 的 列 来 说 ， 都 会 有 2 字 节 的 空间 来 存储 该 变 列 的 实际 数据 占用 的 存 
储 空间 长 度 ，key_len 值 还 要 在 原先 的 基础 上 加 2 字 节 。 
这 样 的 话 ， 我 们 再 分 析 一 下 上 述 查 询 中 的 key_len 值 是 怎么 计算 出 来 的 。 
e keyl 列 的 类 型 是 VARCHAR(100)， 使 用 的 字符 集 是 utfg， 所 以 该 列 的 实际 数据 最 多 占 
用 的 存储 空间 长 度 就 是 300 字 节 。 
e@ keyl 列 可 以 存储 NULL 值 ， 所 以 key len 值 在 300 的 基础 上 再 加 1， 也 就 是 301。 
e@ keyl 列 是 变 长 类 型 的 列 ，key_len 值 在 301 的 基础 上 再 加 2， 也 就 是 303 。 
哦 ， 原 来 303 是 这 么 来 的 呀 ! 我 们 通过 查看 执行 计划 的 key 列 是 idx key1， 所 以 知道 该 查 
询 是 使 用 idx_keyl 来 执行 的 ， 再 查看 执行 计划 的 key_len 列 ， 发 现 是 303， 说 明 形 成 扫描 区 间 
的 搜索 条 件 中 只 包含 keyl 列 这 一 个 列 。 涉 及 该 列 的 搜索 条 件 是 keyl > 'a' AND keyl < 'b'， 这 个 
搜索 条 件 就 是 形成 范围 区 间 的 边界 条 件 。 
我 们 再 看 下 面 这 个 查询 : | 


mysql> EXPLAIN SELECT * FROM 51 WHERE ia = 5; 


+— 一 一 一 + 一 一 一 一 一 








一 一 一 二 一 一 





专 一 一 一 一 一 














一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | ftered | Extra | 
+ 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| 1 | SIMPLE | s1 | NULL | | const | PRIMARY | PRIMARY | 4 | const | 1 1 100.00 | NULL | 
+ 一 一 一 一 + 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 . 一 一 一 二 一 一 一 二 一 一 一 一 一 一 一 十 





1 row in set, 1 warning (0.01 sec) 


“由 于 记 列 的 类 型 是 INT， 并 且 不 可 以 存储 NULL 值 ， 所 以 该 列 对 应 的 key len 值 就 是 4。 

有 同学 可 能 有 疑问 ， 前 面 章节 在 啼 四 InnoDB 行 格式 的 时 候 说 到 ， 存 储 变 长 字段 实际 占用 
的 存储 空间 长 度 不 是 可 能 占用 1 字 节 或 者 2 字 节 么 ?为 什么 现在 不 管 三 七 二 十 一 都 使 用 2 字 
节 呢 ? 这 里 需要 强调 的 一 点 是 ， 执行 计划 的 生成 是 server 层 中 的 功能 ， 并 不 是 针对 具体 某 个 存 
储 引擎 的 功能 ，server 表示 记录 的 方式 与 具体 某 个 存储 引擎 表示 记录 的 方式 是 不 一 样 的 。 设 计 
MySQL 的 大 叔 在 执行 计划 中 输出 key len 列 ， 主 要 是 为 了 让 我 们 在 使 用 联合 索引 执行 查询 时 ， 
能 知道 优化 器 具体 使 用 了 涉及 多 少 个 列 的 搜索 条 件 来 充当 形成 扫 摘 区 间 的 边界 条 件 。 比 如 下 面 
这 个 使 用 联合 索引 idx_key_part 的 查询 : 


| 
mysql> EXPLAIN SELECT * FROM sl WHERE key partl = "a’' AND key part3 = 'a'; 
+ 一 一 一 一 + 一 一 一 








一 一 一 一 + 一 一 一 一 一 一 -+ 一 一 一 一 一 一 一 一 一 - 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | fltered | Extra | 





一 一 个 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 站 一 一 一 


一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| 1 | SIMPLE | sl | NULL | ref | idx key part | idx key part | 303 | const 1 12 1 100.00 | NULL | 


一 +- 一 一 一 一 一 AR 
1 row in set, 1 warning (0.00 sec) 


可 以 从 执行 计划 的 key_len 列 中 看 到 值 是 303， 这 意味 着 MySQL 在 执行 上 述 查 询 时 只 通 
过 涉及 key_partl 列 的 搜索 条 件 来 充当 形成 扫描 区 间 的 边界 条 件 ， 也 就 是 仅 使 用 key partl = 'a' 
来 充当 边界 条 件 。 

而 在 下 面 这 个 查询 中 : 
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mysql> EXPLATN SELECT * FROM sl WHERE key Partl = ‘a' AND key part2 > ‘b's 

a le dd Ft pei ie oe mi Been 1 

| Wa i | eG A 

a 
这 个 查询 的 执行 计划 的 ken len 列 的 值 是 606， 这 意味 着 MySQL 在 执行 上 述 查 询 时 通过 涉及 
key partl 和 key_part2 这 两 个 列 的 搜索 条 件 来 充当 形成 扫描 区 间 的 边界 条 件 ， 也 就 是 使 用 key_ 
partl ='a' AND key part2 > 'b' 来 充当 边界 条 件 。 


15.1.8 ref 


当 访 问 方法 是 const、eq_ref、ref、ref or_ null、unique_subquery、index_subquery 中 的 其 中 
一 个 时 ，ref 列 展示 的 就 是 与 索引 列 进行 等 值 匹配 的 东西 是 喻 ， 比 如 只 是 一 个 常数 或 者 是 某 个 
列 。 大 家 看 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM S1 WHERE keyl = ‘'a'; 








一 一 一 一 一 一 二 一 一 一 一 一 一 一 + 








| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 
+ 一 一 一 一 二 一 一 一 一 一 一 一 
| 1 | SIMPLE | sl | NULL | ref | idx keyl | idx keyl | 303 | const | 8 1 100.00 | NULL | 
+ 一 -一 一 十 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 





1 row in set, 1 warning (0.01 sec) 


可 以 看 到 ref 列 的 值 是 const， 表 明 在 使 用 idx keyl 索引 执行 查询 时 ， 与 keyl 列 进行 等 值 
匹配 的 对 象 是 一 个 常数 。 当 然 ， 有 时 候 更 复杂 一 点 : 


MYSGL> EXPLAIN SELECT * FROM 51I INNER JOIN s2 ON sl.id = s2.id; 








- 一 一 一 一 十 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | ftered | Extra | 
放下 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 

| 1 | SIMPLE | sl | NULL | ALL | PRIMARY | NULL | NULL | NULL | 9688 | 100.00 | NULL | 
| 1 1 SIMPLE | 52 | NULL | eq ref | PRIMARY | PRIMARY | 4 | xiaohaizi.sl.id | 1 | 100.00 | NULL | 





ee 





2 rows in set, 1 warning (0.00 sec). 


可 以 看 到 针对 被 驱动 表 s2 的 访问 方法 是 eq ref， 而 对 应 的 ref 列 的 值 是 xiaohaizi.s1.id。 这 
就 说 明 在 对 s2 表 进 行 访问 时 ， 与 s2 表 的 id 列 进行 等 值 匹 配 的 对 象 就 是 xiaohaizi.sl.id 列 ( 注 
意 这 里 把 数据 库 名 也 写 出 来 了 )。 

有 时 ， 与 索引 列 进行 等 值 匹 配 的 对 象 是 一 个 函数 。 比 如 下 面 这 个 查询 : 

Mysql> EXPLAIN SELECT * FROM sl INNER JOIN s2 ON s2.keyl = UPPER(s1.keyl); 

| id | select type | table | partitions | type | possible keys | key | sey len | ref | sowe | thtored | xtra | 


| 1 | SIMPLE | s1 | NULL | ALL | NULL | NULL | NULL | NULL | 9688 | 100.00 1 NULL | 
| 1 | SIMPLE | 52 | NULL | ref | idx_keyl | idx_ keyl | 303 | func | 1 | 100.00 | Using index condition | 








——————+ 
2 rows in set, 1 warning (0.00 sec) 


我 们 看 执行 计划 的 第 2 条 记录 ， 可 以 看 到 是 采用 ref 访问 方法 对 s2 表 执 行 查询 。 然 后 在 执 
行 计 划 的 ref 列 中 输出 的 是 fnc， 这 说 明 与 s2 表 的 keyl 列 进 行 等 值 匹 配 的 对 象 是 一 个 函数 。 


15.1.9 rows 


在 查询 优化 器 决定 使 用 全 表 扫 描 的 方式 对 某 个 表 执 行 查询 时 ， 执 行 计 划 的 rows 列 就 代表 
该 表 的 估计 行 数 。 如 果 使 用 索引 来 执行 查询 ， 执 行 计划 的 rows 列 就 代表 预计 扫描 的 索引 记录 





A oa 
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行 数 。 比 如 下 面 这 个 查询 : 


| EXPLAIN SELECT * FROM sl1 WHERE keyl - 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 个 


(4 1 select ype | dble | Parcitione | pe | Pesthle Kae | ey | key_len | ref | rows | ftered | Extra | 


一 一 本 一 一 


一 一 一 一 一 一 一 + 一 一 一 一 一 一 

| 1 | SIMPLE | s1 | NULL | Kange | idx_key}l | idx keyl | 303 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 下 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 瞩 一 一 一 一 一 一 

1 row jn set, 1 warning (0.00 sec) 


我 们 看 到 执行 计划 的 rows 列 的 值 是 266， 这 意味 着 查询 优化 器 在 分 析 完 使 用 idx keyl 执 
行 查 询 的 成 本 之 后 ， 觉 得 满足 人 条 件 的 记录 只 有 266 条 。 


一 一 一 一 一 一 个 一 一 一 一 


一 一 + 
| NULL | 266 | 100.00 | Using index condition | 
让 一 一 一 一 一 一 二 一 一 一 一 一 一 下 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 必 





“1y 


Wy 一 
一 


我 们 在 第 12 Fu 详细 讨论 了 如何 计 和 所 信 在 一 个 相 本 区 辣 
Ss 中 的 记录 数量 。 有 ， 忘记 的 F 同学 可 以 回头 看 一 下 | 


15.1.10 filtered 


之 前 在 分 析 连 接 查 询 的 成 本 时 ， 提 出 过 一 个 condition filtering (条件 过 滤 ) 的 概念 。 这 个 
概念 就 是 MySQL 在 计算 驱动 表 扇 出 时 采用 的 一 个 策略 。 
e。 如 果 使 用 全 表 扫描 的 方式 来 执行 单 表 查 询 ， 那 么 计算 驱动 表 扇 出 时 需要 估计 出 满足 全 
部 搜索 条 件 的 记录 到 底 有 多 少 条 。 
e。 如 果 使 用 索引 来 执行 单 表 扫描 ， 那 么 计算 驱动 表 肩 出 时 需要 估计 出 在 满足 形成 索引 扫 
描 区 间 的 搜索 条 件 外 ， 还 满足 其 他 搜索 条 件 的 记录 有 多 少 条 。 
比如 下 面 这 个 查询 : | 


mysql> EXPLAIN SELECT * FROM sS1L WHERE keyl > /32 AND common field = 


各 一 ~ 一 一 多 一 一 一 一 


| a aa ea is | key_len | ref | rows | ftered | Extra | 
一 一 一 = 一 一 一 一 一 一 4 一 ~ 一 -一 - -4 一 -一 -一 一 一 一 -= 一 一 一 4 一 一 

| 1 1 SIMPLE | sl | NULL | 1 | idx_jkeyl | 303 | NULL | ,266 | 10.00 | Using index condition;} Using where | 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ed re i ee 


1 row jn set, 1 warning (0.00 sec) 


从 执行 计划 的 key 列 可 以 看 出 ， 该 查询 使 用 idx keyl 索引 来 执行 查询 。 条 件 keyl>'z 用 
来 形成 扫描 区 间 ， 从 rows 列 可 以 看 出 满足 keyl>'z 条 件 的 记录 有 266 条 。 执 行 计划 的 filtered 
列 代表 的 是 ， 查 询 优化 器 预测 出 这 266 条 记录 中 有 多 少 条 记录 满足 其 余 的 搜索 条 件 〈 也 就 是 
common field='a' 条 件 ) 的 百分比 。 这 里 filtered 列 的 值 是 10.00， 说 明 查 询 优 化 器 预测 出 ， 在 
266 条 记录 中 有 10.00% 的 记录 满足 common _field='a' 条 件 。 

对 于 单 表 查 询 来 说 ， 这 个 filtered 列 的 值 没什么 意义 ， 我 们 更 关注 在 连接 查询 中 驱动 表 对 
应 的 执行 计划 的 filtered 值 。 比 如 下 面 这 个 查询 : 


本 FROM 51 ep en A © 4 


一 一 外 一 一 一 一 一 一 一 一 外 一 一 一 一 一 一 一 亏 一 一 一 一 一 一 








一 -一 一 一 一 人 一 全 一 一 一 一 一 一 一 
1 | eloct age | able | Partttten 1 | possible keys | key | key len | ref | rows | fltered | Extra I 
一 -+ 一 一 一 一 一 一 一 + 
| 1 | SIMPLE | si | WULL | ALL | id keyl | NULL | WLL | NULL | 3688 | 10.00 | Using where | 
| 1 | SIMPLE | s2 | NULL | ref | idx keyl | idx keyl | 303 | xiaohaizi.si,keyl | 1 | 100.00 | NULL | 


参 一 一 一 一 信 一 一 一 一 一 一 一 一 一 一 一 一 一 全 一 一 一 一 一 一 一 盆 一 一 一 一 一 一 一 一 一 一 一 一 个 一 


2 rows in set, 1 warning (0.00 sec) 





竹 一 一 一 一 一 一 一 





一 一 一 一 一 一 一 个 


| 
从 执行 计划 中 可 以 看 出 ， 查 询 优化 器 打算 把 sl 当 作 驱动 表 ， 把 s2 当 作 被 驱动 表 。 我 们 可 
以 看 到 ， 驱 动 表 sl 表 的 执行 计划 的 rows 列 为 9,688，filtered 列 为 10.00， 这 意味 着 驱动 表 sl 


| 
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的 扇 出 值 就 是 9,688 x 10.00% = 968.8， 这 说 明 还 要 对 被 驱动 表 执 行 大 约 968 次 查询 。 
15.1.11 Extra 


顾名思义 ，Extra 列 是 用 来 说 明 一 些 额外 信息 的 ， 我 们 可 以 通过 这 些 额外 信息 来 更 准确 地 
理解 MySQL 到 底 如 何 执行 给 定 的 查询 语句 。Extra 列 可 能 显示 的 额外 信息 有 好 几 十 个 ， 我 们 
就 不 挨个 介绍 了 〔 如 果 都 介绍 了 ， 那 就 和 官方 文档 没有 区 别 了 )， 所 以 这 里 只 挑 一 些 常见 的 或 
者 比较 重要 的 额外 信息 进行 介绍 。 

e Notables used : 当 查 询 语句 中 没有 FROM 子 句 时 将 会 提示 该 额外 信息 。 比 如 : 


mysql> EXEIAIN SELECT 1; 

















+----+----- 一 ----- 一 一 一 一 一 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | fntered | Extra | 
证 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 下 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 -一 一 一 -一 -人 一 一 一 一 一 一 一 一 一- 一 一 一 个 
| 1 | SIMPLE | NULL | NULL 1 NULL | NULL | NULL | NULL | ROLE | NULL | NULL | No tables Used | 
4 一 一 一 人 -一 一 














1 row in set, 1 warning (0.00 sec) 


@ Impossible WHERE : 查询 语句 的 WHERE 子 句 永远 为 FALSE 时 将 会 提示 该 额外 信息 。 
比如 : 


mysql> EXPIAIN SELECT *。 FROM sl WHERE 1 != 1; 
+ 一 一 一 一 + 一 一 一 








一 一 一 一 一 一 一 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | fitered | Extra | 
和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 上 
| 14 | SIMPLE | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | impossible WHERE | 
和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 瞩 
1 row in set, 1 warning (0.01 sec) 


@ No matching min/max row : 当 查 询 列 表 处 有 MIN 或 者 MAX 聚集 函数 ， 但 是 并 没有 记 
录 符 合 WHERE 子 句 中 的 搜索 条 件 时 ， 将 会 提示 该 额外 信息 。 比 如 : 

mysql> EXPLAIN SELECT MIN (keyl) FROM 51 WHERE keyl = ‘abocdefg'; 

| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | fitered | Extra | 


一 -一 一 -人 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 
| 1 | SIMPLE | ROLL | NULL | NULL | NULL | NOLL | NULL | NULL | NULL | NULL | No matching min/max row | 











—+ 





1 row in set, 1 warning (0.00 sec) 


e Using index : 使 用 覆盖 索引 执行 查询 时 ，Extra 列 将 会 提示 该 额外 信息 。 比 如 下 面 这 个 
查询 中 只 需要 用 到 idx_ key1， 而 不 需要 进行 回 表 操作 : 


mysql> EXPLAIN SELECT keyl FROM sl WHERE keyl = 'a'; 

















一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 

| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | ftered | Extra | 
+— 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 个 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 
| 1 | SIMPLE | sl | NULL | ref | idx keyl | idx_ keyl | 303 | const | 8 | 100.00 | Using index | 
+ 一 -一 -+ 一 -一 一 一 一 一 人 一 一 一 一 + 一 一 - 一 -- 一 -一 一 + 

















1 row in set, 1 warning (0.00 sec) 

e Using index condition : 有 些 搜索 条 件 中 虽然 出 现 了 索引 列 ， 但 却 不 能 充当 边界 条 件 来 
形成 扫描 区 间 ， 也 就 是 不 能 用 来 减少 需要 扫描 的 记录 数量 ， 将 会 提示 该 额外 信息 。 比 
如 下 面 这 个 查询 : 


SELECT * FROM sl WHERE keyl > 'z' RND keyl LIKE '$%a'; 


其 中 的 keyl>'z 可 以 用 来 形成 扫描 区 间 ， 但 是 keyl LIKE '%a' 却 不 能 。 
我 们 知道 ，MySQL 服务 器 程序 其 实 分 为 server 层 和 存储 引擎 层 。 在 没有 索引 条 件 下 推 特 
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性 之 前 ，server 层 在 生成 执行 计划 后 ， 是 按照 下 面 的 步骤 来 执行 这 个 查询 的 。 
步骤 1. server 层 首先 调用 存储 引擎 的 接口 定位 到 满足 key1>'z' 条 件 的 第 一 条 二 级 索引 记录 。 
步骤 2， 存 储 引 擎 根据 B+ 树 索 引 快速 定位 到 这 条 二 级 索引 记录 后 ， 根 据 该 二 级 索引 记录 的 
主键 值 进行 回 表 操 作 ， 将 完整 的 用 户 记录 返 给 server 层 。 
步骤 3，server 层 再 判断 其 他 的 搜索 条 件 是 否 成 立 ， 如 果 成 立 则 将 其 发 送 给 客户 端 ， 否 则 跳 
过 该 记录 ， 然 后 向 存储 引擎 层 要 下 一 条 记录 。 
步骤 4. 由 于 每 条 记录 都 有 一 个 next record 属性 ， 根 据 该 属性 可 以 快速 定位 到 符合 keyl>2 条 
件 的 下 一 条 二 级 索引 记录 。 然 后 再 执行 回 表 操作 ， 将 完整 的 用 户 记录 返回 给 server 层 。 
然后 重复 步骤 3， 直 到 将 索引 idx keyl 的 扫描 区 间 (z,+c) 内 的 所 有 记录 都 扫描 过 为 止 。 
这 里 面 有 个 问题 ， 虽 然 keyl LIKE '%a' 不 能 用 于 充当 边界 条 件 来 减少 需要 扫描 的 二 级 索 
引 记录 的 数量 ， 但 这 个 搜索 条 件 毕竟 只 涉及 keyl 列 ， 而 keyl 列 是 包含 在 索引 idx keyl 中 的 。 
所 以 ， 设 计 MySQL 的 大 叔 尝试 改进 了 上 面 的 执行 步 又 。 
步骤 1，server 层 首先 调用 存储 引擎 的 接口 定位 到 满足 keyl>'z 条 件 的 第 一 条 二 级 索引 记录 。 
步骤 2， 存 储 引擎 根据 B+ 树 索引 快速 定位 到 这 条 二 级 索引 记录 后 ， 不 着 急 执行 回 表 操 
作 ， 而 是 先 判断 一 下 所 有 关于 idx keyl 索引 中 包含 的 列 的 条 件 是 否 成 立 ， 也 就 是 
keyl>z AND keyl LIKE %a' 是 否 成 立 。 如 果 这 些 条 件 不 成 立 ， 则 直接 跳 过 该 二 级 
索引 记录 ， 然 后 去 找 下 一 条 二 级 索引 记录 ， 如 果 这 些 条 件 成 立 ， 则 执行 回 表 操作 ， 
将 完整 的 用 户 记 录 返 回 给 server 层 。 
步骤 3，server 层 再 判断 其 他 的 搜索 条 件 是 否 成 立 〈 本 例 中 没有 其 他 的 搜索 条 件 了 )。 如 果 
成 立 则 将 其 发 送 给 客户 端 ， 否则 跳 过 该 记录 ， 然 后 向 存储 引擎 层 要 下 一 条 记录 。 
步骤 4、 由 于 每 条 记录 都 有 一 个 next record 属性 ， 根 据 该 属性 可 以 快速 定位 到 符合 keyl>z 
条 件 的 下 一 条 二 级 索引 记录 。 还 是 不 着 急 进行 回 表 操作 ， 先 判断 一 下 所 有 关于 idx_ 
keyl 索引 中 包含 的 列 的 条 件 是 否 成 立 。 如 果 这 些 条 件 不 成 立 ， 则 直接 跳 过 该 二 级 
索引 记录 ， 然 后 去 找 下 一 条 二 级 索引 记录 。 如 果 这 些 条 件 成 立 ， 则 执行 回 表 操作 ， 
将 完整 的 用 户 记 录 返 回 给 server 层 。 然 后 重复 步骤 3， 直 到 将 索引 idx_keyl 的 扫描 
区 间 (z, + co ) 内 的 所 有 记录 都 扫描 过 为 止 。 
每 次 执行 回 表 操作 时 ， 都 需要 将 一 个 聚 簇 索引 页 面 加 载 到 内 存 中 。 这 比较 耗 时 ， 所 以 尽管 
上 述 修改 只 改进 了 一 点 点 ， 但 是 可 以 省 去 好 多 回 表 操 作 的 成 本 。 设 计 MySQL 的 大 叔 把 他 们 的 
这 个 改进 称 为 索引 条 件 下 推 (Index Condition Pushdown)。 
如 果 在 查询 语句 的 执行 过 程 中 使 用 索引 条 件 下 推 特性 ， 在 Extra 列 中 将 会 显示 Using index 
condition。 比 如 下 面 这 样 : | 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl 2 'z* AND keyl LIKE ‘4b'; 
健一 一 一 一 一 一 一 ?一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


让 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 





一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


一 一 4 一 一 一 一 一 一 上 一 一 一 一 一 一 一 
14 1 oolect_type | table | Partitions | type | possible heys | key | key len | ref | rows | filtered | Extra | 
4 一 -一 一 4 一 一 一 + 一 + 





一 一 一 一 一 一 一 人 一 一 一 一 一 一 
1 1 | SIMPLE | si | NULL | range | icdx key} | idx keyl | 303 | NULL | 266 | 100.00 | Using index condition | 
和 一 一 一 一 一 一 一 一 一 一 一 一 


OR CY 


1 row in set, 1 warning (0.01 sec) 


不 过 ， 这 里 有 一 个 问题 需要 注意 。 本 例 在 使 用 索引 条 件 下 推 特性 时 ， 在 存储 引擎 层 获取 
到 一 条 二 级 索引 记录 后 ， 需 要 在 存储 引擎 层 继续 判断 key1>'z AND keyl LIKE "%a' 条 件 是 否 成 
立 。 可 keyl>'z 这 个 条 件 不 是 用 来 生成 扫描 区 间 的 么 ， 怎 么 这 里 还 要 在 存储 引擎 层 中 作为 索引 


一 一 一 一 





一 一 从 一 一 一 一 一 一 一 一 一 分 一 一 一 一 
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条 件 下 推 的 条 件 再 判断 一 遍 呢 ? 我 猜 这 是 设计 MySQL 的 大 叔 为 了 编码 方便 而 做 的 一 种 元 余 处 
理 。 多 判断 一 遍 也 没 啥 大 影响 〈 是 的 ， 我 是 猜 的 ， 并 没有 找到 关于 这 个 问题 的 直接 说 明 )。 其 
实 ， 即 使 查询 条 件 中 只 保留 keyl>'z 条 件 ， 也 会 将 其 作为 索引 条 件 下 推 中 的 条 件 在 存储 引擎 中 
判断 一 遍 。 我 们 来 看 执行 计划 (注意 看 Extra 列 提示 了 Using index condition ): 

mysql> EXPLAIN SELECT * FROM sl WHERE keyl > 'z'; | 


1 row in set, 1 warning (0.02 sec) 


但 是 设计 MySQL 的 大 叔 在 代码 中 对 形成 扫描 区 间 的 等 值 匹 配 条 件 又 进行 了 特殊 处 理 ， 它 
们 不 作为 索引 条 件 下 推 中 的 条 件 在 存储 引擎 中 再 重复 判断 一 遍 。 比 如 下 面 这 个 查询 (注意 看 
Extra 列 没有 提示 Using index condition ): 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl = ‘a' 
二 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 





人 














| id | select_ type | table | Partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 
让 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 -一 
| 1 | SIMPLE Lm | NULL | ref | idx key]l | idx keyl | 303 | const | 8 | 100.00 | NULL | 





1 row in set, 1 warning (0.03 sec) 


有 同学 会 想 : 为 什么 要 把 形成 扫描 区 间 的 边界 条 件 是 否 作为 索引 条 件 下 推 中 的 条 件 说 得 这 
么 细 了 呢 ? 烦 不 烦 啊 ， 这 对 我 们 用 户 没 啥 影响 啊 ， 不 就 是 重复 判断 一 下 边界 条 件 是 否 成 立 么 ? 其 
实 ， 这 主要 是 为 第 22 章 做 一 个 铺垫 ， 后 面 在 用 到 的 时 候 会 更 加 详细 地 介绍 。 

另外 ， 还 需要 注意 的 一 点 是 ， 索 引 条 件 下 推 特 性 只 是 为 了 在 扫描 某 个 扫描 区 间 的 二 级 索引 
记录 时 ， 尽 可 能 减少 回 表 操 作 的 次 数 ， 从 而 减少 IO 操作 。 而 对 于 聚 簇 索 引 而 言 ， 它 不 需要 回 
表 ， 它 本 身 就 包含 全 部 的 列 ， 也 起 不 到 减少 IO 操作 的 作用 ， 所 以 设计 InnoDB 的 大 叔 规定 这 
个 索引 条 件 下 推 特 性 只 适用 于 二 级 索引 。 

@ Using where : 当 某 个 搜索 条 件 需 要 在 server 层 进行 判断 时 ， 在 Extra 列 中 会 提示 Using 

where。 比 如 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM S51 WHERE common field = 1a' 
+ 一 - ---+ 一 一 -一 





一 一 一 一 一 一 一 一 一 二 一 

















二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 天 | select type | table | partitions | type | possilile keys | key | key len | ref | rows | fitered | Extra | 














—— 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 -一 一 一 + 
| 1 | SIMPLE | sl | NULL | ALL | NULL | NULL | NULL | NULL | 9688 | 10.00 | Using where | 
一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 十 











1 row in set, 1 warning (0.01 sec) 


对 于 聚 簇 索 引 来 说 ， 是 用 不 到 索引 条 件 下 推 特性 的 ， 因 此 本 例 中 所 有 的 搜索 条 件 都 得 在 
server 层 进 行 处 理 。 也 就 是 说 ， 本 例 中 的 common field='a' 条 件 是 在 server 层 进行 判断 的 ， 所 
以 该 语句 的 执行 计划 的 Extra 列 才 提 示 Using where。 

有 时 ，MySQL 会 扫描 某 个 二 级 索引 的 一 个 扫描 区 间 的 记录 。 比 如 : 


mysql> EXPLAIN SELECT * FROM 51 WHERE keyl = 'a' AND common field = 'a'; 








一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 





一 一 一 二 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 人 一 iv 
| id | select type | table | partitions | type | possible keys | key | key_ len | ref | rows | fiitered | Extra | 
二 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 -一 一 一 -一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 1 | SIMPLE | si | NULL | ref | idx keyl | idx_ keyl | 303 | const | 8 | 10.00 | Using where | 


一 一 一 一 一 一 一 一 一 全 一 一 一 一 一 一 














一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 个 


1 row in set, 1 warning (0.00 sec) 
从 执行 计划 可 以 看 出 ， 这 个 语句 在 执行 时 将 会 使 用 到 idx_ keyl 二 级 索引 。 但 是 ， 由 于 该 
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奈 引 并 不 包含 common field 列 ， 也 就 是 说 该 条 件 不 能 作为 索引 条 件 下 推 的 条 件 在 存储 引擎 层 
进行 判断 。 存 储 引 擎 需要 根据 二 级 索引 记录 执行 回 表 操 作 ， 并 将 完整 的 用 户 记录 返回 给 server 
技 之 后 ， 表 在 server 层 判 断 这 个 条 件 是 否 成 立 。 所 以 本 例 中 的 Extra 列 也 提示 了 Using where。 
ee Using join buffer (Block Nested Loop) : 在 连接 查询 的 执行 过 程 中 ， 当 被 驱动 表 不 能 有 
效 地 利用 索引 加 快 访问 速度 时 ，MySQL 一 般 会 为 其 分 配 一 块 名 为 连接 缓冲 区 〈Join 
Buffer) 的 内 存 块 来 加 快 查询 速度 ; 也 就 是 使 用 基于 块 的 嵌 套 循环 算法 来 执行 连接 查 
询 。 比 如 下 面 这 个 查询 语句 : 


mysql> EXPLAIN SELECT ”FROM sl1 IWNER JOIN s2 ON sj 和 s2.Comor feld; 
和 一 一 一 一 全 一 一 一 一 一 一 一 一 一 一 全 一 一 一 一 一 


一 一 全 一 一 一 一 


-$9-——-—-————$ - - -一 一 一 一 一 一 
1 424 | select type | tabile paritione | type | Pethe hoy | hey | hey en | ref | tom | 但 tered | Prem l 
和 一 一 下 一 一 一 一 一 似 一 一 一 一 一 一 个 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 全 一 一 一 一 一 一 一 一 一 —— -+ 
| 1 | SIMPLE $1 1 六 HLL | AD | WULL | WILL | WILL | WOLL | 9688 | 100.00 | WLS | 
| 1 1 SIMELE 52 | NE | ALL | NUILL | WULL | WULL Nm A 10.00 1 Usimgy where; Using join buffer (Block Nested Loop) | 
4----4 一 ------------- --- 一 一-- 一 -一 -一 一 +- -一 -一 下- 一 -一 一 -一 一 一 一 4 一 一 -一 -< 一 一 一 一 一 -一 人 -— -OOO ---———————+* 
2 rows irn set, 1 warnin3g (0.03 sec) 


在 针对 s2 表 的 执行 计划 中 ，Extra 列 显 示 了 两 个 提示 。 
@ ”Using join buffer (Block Nested Loop) : 这 是 因为 对 表 s2 的 访问 不 能 有 效 利用 索引 ， 
只 好 退 而 求 其 次 ， 使 用 Join Buffer 来 减少 对 s2 表 的 访问 次 数 ， 从 而 提高 性 能 。 
@ Using where : 可 以 看 到 查询 语句 中 有 一 个 sl.common field=s2.common field 条 件 ， 
因为 sl 是 驱动 表 ，s2 是 被 驱动 表 ， 所 以 在 访问 s2 表 时 ，sl.common field 的 值 已 
经 确定 下 来 了 。 因 此 ， 实 际 上 查询 S2 表 的 条 件 就 是 “s2.common field= 一 个 常数 ”， 
所 以 提示 了 Using where 信息 。 
® Using intersect(...)、Using union(...) 和 Using sort union(...) : 如 果 执 行 计 划 的 Extra 列 出 
现 了 Using intersect(...) 提示 ， 说 明 准 备 使 用 Intersection 索引 合并 的 方式 执行 查询 ; 插 
号 中 的 ... 表示 需要 进行 合并 的 索引 名 称 ; 如 果 出 现 了 Using union(...) 提示 ， 说 明 准 备 
使 用 Union 索引 合并 的 方式 执行 查询 ; 如 果 出 现 了 Using sort union(...) 提示 ， 说 明 准 
备 使 用 Sort-Union 索引 合并 的 方式 执行 查询。 比如 下 面 这 个 查询 的 执行 计划 : 





e- 一 - -一 ~-—— 0 本 
| id | select type | table | pertirions | type | possibje keys | ey | key len | ref | rows | Hitered | Extrs l 
和 一 一 一 一 一 一 人 

1 | Spers 和 汇 ALL A ooarcosuerdEessoepaR5O 反 OO 机 Escn 从 Ne nals nec ec 
4 一 一 一 4 一 - -一 一 - -~ ~ 一 一 如 一 一 ~-—-0—-—- — 一 ~ 人 一 一 -@— = 一 一 -一 一 一 允 一 一 和 一 一 一 -人 一 全 一 一 一 一 一 一 
1】 In set, } warning (00 sac) 


可 以 看 到 ，Extra 列 显 示 了 Using intersect(idx key3,idx key1)， 这 表明 MySQL 即将 使 用 
idx key3 和 idx keyl 这 两 个 索引 进行 Intersection 索引 合并 的 方式 来 执行 查询 。 


: 另 0 Extra 列 信息 就 不 一 一 举例 了 ， > 自己 写 个 查询 具 具 吧 。 

小 贴 士 二 

@ Zero limit : 当 LIMIT 子 句 的 参数 为 0 时 ， 表 示 压 根 儿 不 打算 从 表 中 读 出 任何 记录 ， 此 
时 将 会 提示 该 额外 信息 。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT * FROM s1 LIMIT 0; 





+4 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 + 一 -一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 -一 一 一 -一 一 一 十 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | 全 tered | Extra | 
4 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 +—~—-— 一 一 一 一 一 -一 
| 1 |} SIMPLE | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | Zero limit | 
4 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 -一 十 ~ 一 一 一 一 一 一 + 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 
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e Using filesort : 在 有 些 情况 下 ， 当 对 结果 集中 的 记录 进行 排序 时 ， 是 可 以 使 用 到 索引 
的 。 比 如 下 面 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM sl ORDER BY keyl LIMIT 10; 

和 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 上 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 上 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | flitered | Extra | 
本 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 1 | SIMPLE | 51 | NULL | index | NULL | idx keyl | 303 | NULL | 10 | 100.00 | NUEL | 











1 row in set, 1 warning (0.03 sec) 

这 个 查询 语句 利用 idx keyl 索引 直接 取出 keyl 列 的 10 条 记录 ， 然 后 针对 每 一 条 二 级 索 
引 记 录 进 行 回 表 操 作 就 好 了 。 但 是 在 很 多 情况 下 ， 排 序 操作 无 法 使 用 到 索引 ， 只 能 在 内 存 中 
(记录 较 少 时 ) 或 者 磁盘 中 〈 记 录 较 多 时 ) 进行 排序 。 设 计 MySQL 的 大 叔 把 这 种 在 内 存 中 或 
者 磁盘 中 进行 排序 的 方式 统称 为 文件 排序 (filesort)。 如 果 某 个 查询 需要 使 用 文件 排序 的 方式 
执行 查询 ， 就 会 在 执行 计划 的 Extra 列 中 显示 Using filesort 提示 。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT * FROM sl1 ORDER BY common field LIMIT 10; 
4 一 一 一 + 一 一 一 一 一 





一 个 一 一 一 一 一 一 一 





| id | select type | table | partitions | type | Possible keys | key | key len | ref | rows | 和 tered | Extra | 
和 一 一 一 一 下 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一下 一 一 一 一 一 一 一 一 上 下 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 1 | SIMPLE 1 | NULL | ALL | NULL | NULL | NULL | NULE | 9688 | 100.00 | Using fillesort | 
+ 一 一 一 一 + 一 一 一 一 4 一 一 一 一 一 一 二 一 一 一 一 一 本 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 才 
1 row in set, 1 warning (0.00 sec) 


需要 注意 的 是 ， 如 果 查 询 中 需要 使 用 文件 排序 的 记录 非常 多 ， 这 个 过 程 还 是 很 耗费 性 能 
的 。 我 们 可 以 尝试 将 文件 排序 的 执行 方式 改 为 使 用 索引 进行 排序 。 

@ Using temporary : 在 许多 查询 的 执行 过 程 中 ，MySQL 可 能 会 借助 临时 表 来 完成 一 些 
功能 ， 比 如 去 重 、 排 序 之 类 的 。 比 如 ， 我 们 在 执行 许多 包含 DISTINCT、GROUP BY、 
UNION 等 子 句 的 查询 过 程 中 ， 如 果 不 能 有 效 利用 索引 来 完成 查询 ，MySQL 很 有 可 能 
通过 建立 内 部 的 临时 表 来 执行 查询 。 如 果 查 询 中 使 用 到 了 内 部 的 临时 表 ， 在 执行 计划 
的 Extra 列 将 会 显示 Using temporary 提示 。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT DISTINCT common, field FROM s1; 








Wai 
| id | select type | table | Partitions | type | Possible keys | key | key len | ref | rows | fitered | Extra | 
二 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 作 
| 1 | SIMPLE | si | NULL | ALL | NULL | NULL | NULL | NULL | 9688 | 100.00 | Using temporary | 
一 一 一 本 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 相 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 不 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 专 














1 row in set, 1 warning (0.00 sec) 


再 比如 : 


mysql> EXPIAIN SELECT common fiald, COUNT(*) AS amount FROM 51 GROUP BY coomon field; 








一 一 一 一 人 一 一 一 一 一 一 一 一 一 人 一 一 一 一 一 一 一 一 一 一 一 一 
| id | select type | table | partitions | type | Possible keys | key | key_len | ref | rows | 人 tered | Extra | 
一 一 一 一 一 十 一 一 一 一 一 





一 一 一 一 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 + 

| 1 | SIMPLE | 51 | NULL | AD | NULL | NULL | NULL | NULL | 9688 | 100.00 | Using temporary; Using filesort | 
4 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 
1 row in set, 1 warning (0.00 sec) 


不 知道 大 家 注意 到 了 么 ， 上 述 执行 计划 的 Extra 列 不 仅仅 包含 Using temporary 提示 ， 还 包 
含 Using filesort 提示 。 可 我 们 的 查询 语句 中 明明 没有 ORDER BY 子 句 呀 ? 这 是 因为 MySQL 
会 在 包含 GROUP BY 子 句 的 查询 中 默认 添加 ORDER BY 子 句 。 也 就 是 说 上 面 这 个 查询 其 实 和 
下 面 这 个 查询 等 价 : 


SW OS a 


EXPLAIN SELECT common field, COUNT(*) AS amount FROM sl GROUP BY common field ORDER BY common field; 





15.1 执行 计划 输出 中 各 列 详解 
如 果 我 们 并 不 想 为 包含 GROUP BY 子 句 的 查询 进行 排序 ， 则 需要 显 式 地 写 上 ORDER BY | 
NULL， 就 像 下 面 这 样 : 


esi EXPLAIN SELECT common field, COUNT(*) AS amount FROM sl GROUP BY conmon_field ORDER BY NULL:; 
+ 一 一 -一 人 一 一 一 





一 一 一 一 志 一 -一 -+ 一 一 一 一 一 一 一 一 一 ~ 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 





一 -一 -一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 二 一 一 一 一 下 一 一 一 一 一 十 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| id | select type | table | partitiohs 1 type | possible keys | key | key_len | ref | rows | ftered | Extra | 
+- 一 -一 二 一 一 一 一 一 一 一 一 一 -一 一 一 4—- 一 -一 -一 +- 一 ~ 一- 一 一 一 ~ 一 一 二 一 一 -一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 +-------- -+ 一 一 -一 一 人- 一 一 -一 一 一 -一 ----+------------- 一 -- 一 + 
| 1 | SIMPLE | s1 | NULL 1 ALL | NULL | NULL | NULL 1 NOLL | 9688 | 100.00 | Using temporary | 
一 一 一 让 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 委 一 一 一 一 一 一 瞩 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 瞩 一 一 一 一 一 一 一 一 +- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
1 row in set, 1 warning (0.00 sec) 


这 次 执行 计划 中 就 没有 Using filesort 提示 了 ， 这 也 就 意味 着 在 执行 查询 时 可 以 省 去 对 记录 
进行 文件 排序 的 成 本 了 。 

另外 ， 执 行 计划 中 出 现 Using temporary 并 不 是 一 个 好 的 征兆 ， 因 为 建立 与 维护 临时 表 要 ， 
付出 很 大 的 成 本 ， 所 以 最 好 能 使 用 索引 来 苦 代 临时 表 。 比 如 ， 下 面 这 个 包含 GROUP BY 子 句 
的 查询 就 不 需要 使 用 临时 表 : ， 


mysql> EXPLAIN SELECT keyl, COUNT(*) AS amount FROM sl GROUP BY keyl; 
+ 一 一 一 一 个 





一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 








+ 
| id | select type | table | partitions | type | possible keys | key | key_ len 1 ref | rows | filtered | Extra | 
+ 一 -一 -+ 一 一 一 -一 + 一 一 一- 一 一 一 + 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 +- 一 一 一 一 一 一 一 一 一 一 一 也 


一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 + 一 一 
| 1 | SIMPLE | sl | NULL | index | idx_key]l | idx_ keyl | 303 1 NULL | 9688 | 100.00 | Using index | | 
+~- 一 -+4 一 一 一 一 一 一 二 -一 一 一 一 一 一 十 ~ 一 一 一 一 一 一 一 一 ~- 一 


1 row in set, 1 warning (0.00 sec) 

从 type 列 的 index 值 以 及 Extra 的 Using index 的 提示 中 可 以 看 出 ， 上 述 查询 只 需要 扫描 

idx_keyl 索引 就 可 以 搞定 了 ， 就 不 再 需要 临时 表 了 。 

e@ Start temporary, End temporary : 前 面 在 路 叫 子 查 询 的 时 候 说 过 ， 查 询 优 化 器 会 优先 学 
试 将 IN 子 查询 转换 成 半 连 接 ， 而 半 连 接 又 有 好 多 种 执行 策略 。 当 执行 策略 为 Duplicate 
Weedout 时 ， 也 就 是 通过 建立 临时 表 来 为 外 层 查询 中 的 记录 进行 去 重 操作 时 ， 驱 动 表 
查询 执行 计划 的 Extra 列 将 显示 Start temporary 提示 ， 被 驱动 表 查 询 执行 计划 的 Extra 
列 将 显示 End temporary 提示 ， 比如 下 面 这 样 : 


mysql> EXFIAIN SELECT ”FROM 5 WHESE keyl IN (SELECT key3 FROM $2 WERE common field = 


























-+ 
pn CA mt key | key_len | rerf 1 rows | ftered | Extra | 
EO PE AOR EEC 0RESOUGGDRESRELRDRTEEESOIDGBSGERSEEEEEETr 二 
| 1 | SIMPLE | s2 1 NULL | ALL | idx_key3 1 WILL | NULL | WULL 1 9554 | 10.00 | Using wherej Start temporary | 
| 1 | SIMPIE | 51 | NULL | ref || idx_keyl 1 idx keyl | 303 | xiaohaizi,s2,key3 | 1 1 100.00 | End temporary | 
+ 一 一 -一 =- --- -一 一 --- 一 一 -一 -一 一 一 一 一 二 一 一 一 一 二 一 一 一 一 一 -一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 -一 一 一 一 一 


一 一 ~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
2 rows in set, 1 warning 10.00 sec) 


@ LooseScan : 在 将 IN 子 查 询 转 为 半 连 接 时 ， 如 果 采 用 的 是 LooseScan 执行 策略 ， 则 驱 
动 表 执行 计划 的 Extra 列 就 显示 LooseScan 提示 。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT * a 2'); 
4 一-- --- -一 一 一 一 一 一 -一 - -一 一 一 一 一 一 一 一 


SE DE cs: | key_ len | ref 1 rows | ftered | Extra I 
$0 

| } 1 STMPLE 1 #2 | 拒 凡 LL Boa -ss 1 dx kay | 303 1 WILL 1 270 | 100.00 | Using where; Uning index} looseScan | 
| 1 | SIMPLE | s1 | WILL ref | idx key3 1 16x key3 | 303 | xinchaizi.s2,key} | 1 1 100.00 | WULL 


5 1 
$C = 一 一 一 一 = 一 一 一 + 一 + 





e FirstMatch(tbl name) : 在 将 IN 子 查询 转 为 半 连 接 时 ， 如 果 采 用 的 是 FirstMatch 执行 策 
略 ， 则 被 驱动 表 执 行 计划 的 Extra 列 就 显示 FirstMatch(tbl name) 提示 。 比 如 下 面 这 样 : 


mysql> EXPLAIN SELECT ”FROM 51 WHERE common fle IN (SELECT keyl FROM 82 where sil.key3 » 52.,key}); 
一 一 一 一 一 -一 








+ 一 -一 一 -~-+ 一 一 一 --* 一 - —------ 
| 14 | oelect_type | table | partitions | type | possthle ays | key | key len | ref | rows | tered | Extra | 
下 一 一 一 一 一 一 --- ee Je A A A 
| 1 | SPiz | #3 | NULL, | ALL | tdx key3 | Wt | RE | WILL | 9685 | 100.00 | Using where | 
| 1 | SIMPIE | #2 | WLL | ref 1 idx_jkeyly idx_ jey3 | icdx key3 | 303 | xiaohairi.si.key3 | 1 1 4.87 | Using where; FirstMatchtsl) | 
$+ ee OO $$ 
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ee 一 Ov -ne ~ 一 一 一 


15.2 JSON 格式 的 执行 计划 


- -~ 


BT CN EE ES "TR ,PE 


前 面 介绍 的 EXPLAIN 语句 输出 中 缺少 了 一 个 衡量 执行 计划 好 坏 的 重要 属性 一 一 成 本 。 不 
过 设计 MySQL 的 大 叔 贴心 地 为 我 们 提供 了 一 种 方式 来 查看 某 个 执行 计划 花费 的 成 本 ， 即 在 
EXPLAIN 单词 和 真正 的 查询 语句 中 间 加 上 FORMAT=JSON。 

这 样 我 们 就 可 以 得 到 一 个 JSON 格式 的 执行 计划 ， 里 面包 含 该 计划 花费 的 成 本 。 比 如 下 面 
这 样 : 


mysql> EXPLAIN FORMAT=JSON SELECT * FROM sl1 INNER JOIN s2 ON Sl.keyl = s2.key2 WHERE sl. 
common_field = 'a'\G 


码 焉 疝 训 全 去 全 襄 夺 在 宙 和 雪村 宪 实 二 衬 才 下 让 大 让 雪人 疝 丰 机 这 po” 交友 克 到 再 页 在 立 二 在 天 于 到 主页 击 再 在 机 机 再 责 冯 到 去 去 羡 


EXPLRIN: 1{ 
"query block": 1 
"select id": 1, # 整个 查询 语句 只 有 1 个 SELECT 关键 字 ， 该 关键 字 对 应 的 id 号 为 1 
"cost info": 1{ 
"query_cost": "3197.16"” 手 整个 查询 的 执行 成 本 预计 为 3197.16 
}, 
"nested_ loop": [ # 采用 翌 套 循环 连接 算法 执行 查询 


fa FF 


# 以 下 是 参与 嵌 套 循环 连接 算法 的 各 个 表 的 信息 
{ 
"table”"s: { | 
"table name": "sl"， # s1 表 是 驱动 表 
"access_type": "ALL", # 访问 方法 为 ALL， 意 味 着 使 用 全 表 扫 描 访 问 
"possible keys": | # 可 能 使 用 的 索引 
"idx keyl" 
] ， 
"rows_examined_per_scan": 9688， # 查询 一 次 s1 表 大 致 需要 扫描 9688 条 记录 
"rows_produced per join": 968, # 驱动 表 s1 的 扇 出 预计 是 968 
"filtered": "10.00"， 手 condition filtering 代 表 的 百分比 
"ost iAnfo”s { 
"read cost": "1840.84", # 稍 后 解释 
"eval cost": "193.76", # 稍 后 解释 
"prefix cost": "2034.60", # 单 次 查询 sl1 表 总 共 的 成 本 
"data_read per join": "1M" # 读 取 的 数据 量 
}, 
"used columns": | # 执行 查询 中 涉及 的 列 
"id", 
"keyl", 
"key2", 
"key3", 
"key_part1l", 
"key_ part2", 
"key part3", 
"common_ field" 
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# 对 s1 表 访问 时 ， 针 对 单 表 查询 的 条 件 


"attached condition": 
'keyl' is not null))" 
} 
}, 


"(('xiaohaizi'.'sl'.'common field， = "a') and ('xiaohaizi'.'si'. 


, { | 
"table": | 
"table name": "s2", # Ss2 表 是 被 驱动 表 
"access type": "refn， # 访问 方法 为 ref， 意 味 着 使 用 索引 等 值 匹配 的 方式 访问 
"possible keys": [ # 可 能 使 用 的 索引 
"idx key2" 
可 
"key": “idx_key2"，|  # 实际 使 用 的 索引 
"used key parts": [ # 使 用 到 的 索引 列 
"key2" 
] ， 
"key_length": "5"， # key_len 
"pe" | # 与 key2 列 进行 等 值 匹配 的 对 象 
"xiaohaizi.sl.ke 
] ， 
| "rows_examined per scan": 1， 元 查询 一 次 s2 表 大 致 需要 扫描 1 条 记录 
"rows_produced_per join": 968, # 被 驱动 表 s2 的 扇 出 是 968 (由 于 后 边 没 有 多 余 的 表 进 行 连 接 ， 
所 以 这 个 值 也 没 啥 用 ) | 
"filtered": "100.00", # condition filtering 代 表 的 百分比 


# s2 表 使 用 索引 进行 查询 的 搜索 条 件 
"index_condition": ("xiaohaizi'.'sl'.'keyl' = 'xiaohaizi'.'s2'.'key2')", 
"cost info": 1{ 
"read cost": "968. 80", # 稍 后 解释 
"eval_cost": "193|76", # 稍 后 解释 
"prefix_cost": "3197.16", # 单 次 查询 sl1 和 多 次 查询 s2 表 总 共 的 成 本 
"data_read per join": "1M" # 读 取 的 数据 量 
}， 
"used_columns": [ ， ## 执行 查询 中 涉及 的 列 
"id", 
"keyl", 
"key2", 
"key3", 
[ "key_part1", 
| "key_ part2", 
"key_part3", 
] "common field" | 


+ } | 


1 row in set, 2 warnings (0.00 sec) 


我 们 使 用 # 后 跟 注释 的 形式 为 大 家 解释 了 EXPLAIN FORMAT=JSON 语句 的 输出 内 容 。 大 
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cost_info 部 分 : 


Woont nso™s { 
"read cost": "1840.84", 
"eval cost": "193.76", 
"prefix cost": "2034.60", 
"data_read per join": "1M" 
} 


家 可 能 有 奇怪 ， 为 啥 cost info 里 的 成 本 看 着 怪 怪 的 ， 它 们 是 怎么 计算 出 来 的 ? 先 看 看 s1 表 的 


本 例 中 ，read_cost 是 由 下 面 这 两 部 分 组 成 的 : 


村 全 
上 


~、 
小 贴 士 和 


eval cost 是 这 样 计 算 的 : 

e@e 检测 rows x filter 条 记录 的 成 本 。 

prefix_cost 就 是 单独 查询 sl 表 的 成 本 ， 本 例 中 也 就 是 read_cost + eval cost。 
data_ read_per join 表示 在 此 次 查询 中 需要 读 取 的 数据 量 。 





大 家 鞭 实 没 必 要 关注 MySQL 为 只 使 用 看 起 采 这 勾 二 二 的 广 区 来 计算 ead ost 和 


ua eval cost 只 要 知道 prefix ca cost 是 查询 sl 表 的 成 本 就 好 了 。 


FE 
Cd 





@ JIO 成 本 
e 检测 rows x (1-filter) 条 记录 的 CPU 成 本 。 
对 于 s2 表 的 cost info 部 分 是 这 样 的 : 


"cost info": 1 
"read cost": "968.80", 


oval cost"s “193,.376°, 

"prefix cost": "3197.16", 

"data_read per join": "1M" 
} 


由 于 s2 表 是 被 驱动 表 ， 所 以 可 能 被 读 取 多 次 。 这 里 的 read_cost 和 eval cost 是 访问 多 次 
s2 表 后 累加 起 来 的 值 。 大 家 主要 关注 里 面 prefix_cost 的 值 代表 的 是 整个 连接 查询 预计 的 成 本 ， 
也 就 是 单 次 查询 sl 表 和 多 次 查询 s2 表 后 的 成 本 的 和 ， 即 : 


968.80 + 193.76 + 2034.60 = 3197.16 


15.3 ”Extented EXPLAIN 
最 后 ， 设 计 MySQL 的 大 叔 还 为 我 们 留 了 个 “彩蛋 ”一 一 在 使 用 EXPLAIN 语句 查看 了 某 
个 查询 的 执行 计划 后 ， 紧 接着 还 可 以 使 用 SHOW WARNINGS 语句 来 查看 与 这 个 查询 的 执行 计 


划 有 关 的 扩展 信息 。 比 如 : 
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pn es a keyl, s2.keyl FROM sl LEFT JOIN 52 ON sl.keyl = 52.keyl WHERE s2.common field IS NOT NULL; 





一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 + 

1 4 | select_ type | table | partiedone | type | posaible yeys | sey | key len | ref | rows | 五 itered | Extra | 
一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 —— 一 一 -一 4 一 一 一 一 一 一 

| 1 1 SIMPLE | s2 | NULL | ALL | icdx_ key} | NULL, | NULL 1 NULL | 9954 | 90.,00 | Using where | 
| 1 | SIMPLE | sl | WILL 1 ref | idx_key}l | idx keyl | 303 1 xiaohaizi.s2.keyl | 1 1 100.00 | Using index | 
和 一 一 一 一 一 一 一 一 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 4 一 一 4 一 一 一 + 


ce 


2 rows in set, 1 warning (0.00 sec) | 





mysql> SHOW WARNINGS\G 


Code: 1003 
Message: /* select#l1 */ select ‘xiaohaizi'.'si'.'keyl’ AS ‘keyl', 'xiaohaizi'"."'s2'.'key}l' AS ‘keyl’' from 'xiaohaizi sl join 
‘xiaohaizi'.'s2' where (('xiaohaizi’,'sl'.'keyl' = ‘'xiaohaizi'.'s2'.'keyl') and ('xiachaizi'.'s2','common field' is not null)) 

1 row in set (0.00 sec) 


可 以 看 到 SHOW WARNINGS 展示 出 来 的 信息 有 3 个 字段 ， 分 别 是 Level、Code 和 Message。 
我 们 最 常见 的 就 是 Code 为 1 ,003 的 信息 。 当 Code 值 为 1,003 时 ，Message 字段 展示 的 信息 类 
似 于 查询 优化 器 将 查询 语句 重 写 后 的 语句 。 比如 上 面 的 查询 本 来 是 一 个 左 〈 外 ) 连接 查询 ， 但 
是 有 一 个 s2.common field IS NOT NULL 条 件 ， 这 就 会 导致 查询 优化 器 把 左 ( 外 ) 连接 查询 优 
化 为 内 连接 查询 。 从 SHOW WARNINGS 的 Message 字段 也 可 以 看 出 来 ， 原本 的 LEFT JOIN 
己 经 变 成 了 JOIN。 

但 是 大 家 一 定 要 注意 ， 我 们 说 Message 字段 展示 的 信息 类 似 于 查询 优化 器 将 查询 语句 重 写 
后 的 语句 ， 而 不 是 等 价 于 。 也 说 ，Message 字段 展示 的 信息 并 不 是 标准 的 查询 语句 ， 在 很 
ee 而 只 能 作为 帮助 我 们 理解 MySQL 如 何 执 行 查询 语句 
的 一 个 参考 依据 。 


15.4 ”总结 | : 


~ 一 -em -一 一 一 一 一 一 一 


在 EXPLAIN 单词 和 真正 的 查询 语句 中 间 加 上 FORMAT=JSON， 可 以 得 到 JOSN 格式 的 执 
行 计 划 。 | 

在 使 用 EXPLAIN 语句 查看 了 某 个 查询 的 执行 计划 后 ， 紧 接着 还 可 以 使 用 SHOW WARNINGS 
语句 查看 与 这 个 查询 的 执行 计划 有 关 的 扩展 信息 。 


通过 EXPLAIN en 执行 计划 中 各 个 列 的 作用 大 致 如 表 15-1 
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16.1 optimizer trace 简介 


对 于 MySQL 5.6 以 及 之 前 的 版 本 来 说 ， 查 询 优化 器 就 像 是 一 个 黑 盒 子 ， 我 们 只 能 通过 
EXPLAIN 语句 查看 到 优化 器 最 终 决 定 使 用 的 执行 计划 ， 却 无 法 知道 它 为 什么 做 出 这 样 的 决 
策 。 这 对 于 一 部 分 喜欢 刨 根 问 底 的 同学 来 说 简直 是 灾难 :“ 我 就 觉得 使 用 其 他 的 执行 方案 比 
EXPLAIN 语句 得 出 的 方案 强 ， 和 赁 什么 优化 器 做 的 决定 与 我 想 的 不 一 样 呢 ? ” 


在 MySQL 5.6 以 及 之 后 的 版 本 中 ， 设 计 MySQL 的 大 叔 很 贴心 地 为 这 部 分 同学 提供 了 一 个 


optimizer trace 的 功能 。 这 个 功能 可 以 让 用 户 方便 地 查看 优化 器 生成 执行 计划 的 整个 过 程 。 这 
个 功能 的 开局 与 关闭 由 系统 变量 optimizer_trace 来 决定 。 我 们 看 一 下 : 


mysql> SHOW VARIABLES LIKE "optimizer trace'; 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| optimizer trace | enabled=off,cne line=off | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 ~ 一 四 


1 row in set (0.02 sec) 


可 以 看 到 enabled 的 值 为 off， 表 明 这 个 功能 默认 是 关闭 的 。 


AN 





- 一 


.BD- one_ line 的 值 用 来 控制 输出 格式 。 如果 它 的 值 为 on， 那么 所 有 输出 都 将 在 一 行 中 展 
人 小幅 十 ”未 这 不 适合 我 们 人 类 阅读 ， 所 以 就 保持 其 默认 值 为 off 吧 . 


如 果 想 打开 optimizer trace 功能 ， 必 须 首先 把 enabled 的 值 改 为 on， 就 像 下 面 这 样 : 


mysql> SET optimizer trace="enabled=on"; 

Query OK, 0 rows affected (0.00 sec) 

然后 我 们 就 可 以 输入 想 要 查看 优化 过 程 的 查询 语句 。 当 该 查询 语句 执行 完成 后 ， 就 可 以 到 
information_schema 数据 库 下 的 OPTIMIZER TRACE 表 中 查看 完整 的 执行 计划 生成 过 程 (也 可 
以 不 真正 执行 查询 语句 ， 仅 使 用 EXPLAIN 来 查看 该 语句 的 执行 计划 )。OPTIMIZER TRACE 
表 有 4 列 ， 分 别 如 下 。 

e QUERY : 表示 我 们 输入 的 查询 语句 。 

eS TRACE : 表示 优化 过 程 的 JSON 格式 的 文本 。 

e MISSING BYTES _ BEYOND MAX MEM SIZE : 在 执行 计划 的 生成 过 程 中 可 能 会 输 


HE 2™ 


出 很 多 内 容 ， 如 果 超 过 某 个 限制 ， 多 余 的 文本 将 不 会 显示 。 这 个 字段 则 展示 了 被 忽略 


mp a FWY VE VA 6 dh es p 


Bd a 





人 
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ON 27 


的 文本 字 节 数 。 


e INSUFFICIENT PRIVILEGES : 表示 是 否 有 权限 查看 执行 计划 的 生成 过 程 ， 默 认 值 是 
0， 表 示 有 权限 查看 执行 计划 的 生成 过 程 ， 只 有 某 些 特殊 情况 下 ， 它 的 值 才 是 1。 我 们 
暂时 不 关心 这 个 字段 的 值 。 

使 用 optimizer trace 功能 的 完整 步骤 如 下 所 示 。 

步骤 1. 打开 optimizer trace 功能 (默认 情况 下 是 关闭 的 )。 


SET optimizer trace=-"enabled=on"; 

步骤 2， 输 入 自己 的 查询 语句 。 
SELECT ...; | 

步骤 3. 从 OPTIMIZER_TRACE 表 中 查看 上 一 个 查询 的 优化 过 程 。 
SELECT * FROM information_ schema .OPTIMIZER TRACE:; 


步骤 4， 可 能 还 要 观察 其 他 语句 执行 的 优化 过 程 ， 重 复 步 骤 2 和 步 又 3。 
步骤 5. 当 停止 查看 语句 的 优化 过 程 时 ， 把 optimizer trace 功能 关闭 。 


SET optimizer trace="enabled=off"; 


现在 我 们 有 一 个 搜索 条 件 比较 多 的 查询 语句 ， 它 的 执行 计划 如 下 : 


" 

key} AND 

key2 < 1000000 XND 

key3 IN (a, 省 ) AND 

ceommorn Deld = ‘abc | 
T+ -+ 
| id | select_type | table | partitions | type | posuible keys | key | key Jen | ref | rows | fitersd | Extra | 
Vf , 
| 1 1 SIMPLE | sg1 1 其 RE | range | uk_key2, idx_keyl, idx_key3 | uk key2 | 5 1 ML1I 12 1 0.42 | Using index condition; Using where | 
人 一 一 一 ~ 一 一 ———+ Te --- 一 -一 一 一 


1 row in set, 1 warning (0.00 sec) 


可 以 看 到 ， 该 查询 可 能 使 用 到 的 索引 有 3 个 。 为 什么 查询 优化 器 最 终 选 择 了 uk key2 而 不 
选择 其 他 的 索引 或 者 直接 全 表 扫 描 呢 ? 这 时 可 以 通过 otpimzer trace 功能 来 查看 查询 优化 器 的 
具体 工作 过 程 。 


SET optimizer trace="enabled=on":; 


SELECT * FROM sl1 WHERE 
keyl > 'z' AND 
key2 < 1000000 AND 
key3 IN ('a', 'b', 'c') AND 
common field = 'abc'; | 


SELECT * FROM information_schema .OPTIMIZER TRACE\G 
| 


16.2 通过 optimizer trace 分 析 查 询 优化 器 的 具体 工作 过 程 


我 们 直接 看 一 下 通过 查询 OPTIMIZER_TRACE 表 得 到 的 输出 〈 这 里 在 输出 中 使 用 了 # 后 
跟随 注释 的 形式 解释 了 优化 过 程 中 一 些 比较 重要 的 点 ， 请 大 家 重点 关注 )。 
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二 二 二 去 冯 南音 南 二 南 南 雪 雪 去 击 辫 南 南 二 去 去 害 坟 让 于 交 关 ] 。 TO 妾 二 妇 南齐 南 击 帮 二 在 类 主机 击 商 南下 商 安 评 庆 庆 市 直击 南 
# 分 析 的 查询 语句 是 什么 
QUERY: SELECT * FROM sl1 WHERE 

keyl > 'z' AND 

key2 < 1000000 AND 

key3 IN ('a', 'b', 'c') AND 


common field = "abc' 


# 优化 的 具体 过 程 


TRACE: 1 
"steps": [ 
{ 
"join preparation": 1 # prepare 阶 段 


"select#": 1, 
"steps"™": [ 
{ 
"IN uses bisection": true 
} ， 
{ 
"expanded query": "/* Select#l */ select 'sl'.'id' AS 'id’','sl'.'keyl' AS 'keyl', 
‘Sl"."key2" AS “key2 ， 3S1" 。key3” RS "key3°','sl'.'key partl' AS ‘*key partl','sl'.'key part2， 
AS ‘key part2"','sl'.'key part3' AS ‘key part3','sl'.'common field' AS '‘'common field' from 'sl' 
where (('sl’."'keyl" > 'z') and ('sl'.'key2' < 1000000) and ('sl'.'key3' in ('a', 'b','c')) and 
('sl1"'."'common field’' = ‘'abc'))" 
} 
] /* steps */ 


} /* join preparation */ 


} ， 
{ 
"join optimization"; 1 # optimize 了 阶段 
“select#": 1, 
"steps": | 
{ 
"condition processing": 1 # 处 理 搜索 条 伯 
"condition"”: "WHERE", 
# 原始 搜索 条 件 
“original_condition”: "(("'sl°",. "keyl’' > '21) and ('sl'.'key2' < 1 ) and 
("si" 。 key3 in (a,b’,'c')) and ( 31 .Commnon field' 一 abc+))w， 
“steps": [ 
{ 
# 等 值 传递 转换 
"transformation": "equality propagation", 
"resulting condition": "(('sl'.'keyl’' > '2z') and ('sl'.'key2' < 1000000) 
and ("sl’'.'key3' in ('a','b', 'c')) and ('sl'.,.'common field' = ‘abc'))" 
}, 
| 
# 常量 传递 转换 
"transformation": "constant propagation", 
"resulting_ condition": "(('sl'.'keyl’' > 'z') and ('sli'.'key2' < 1000000) and 
("sl1"."key3" in ("a','b','c')) and ('sl'.'common field' = ‘abc’'))" 
} ， 
{ 


# 去 除 没 用 的 条 人 
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"transformation": "trivial_ condition_removal", 
"resulting condition". 
("sl'.'key3' in ("a','b','c')) ana 0 
) 
] /* steps */ 

) As condition processing */ 

}， 

- { 

# 昔 换 虚拟 生成 列 


“substitute_generated columns": { 
} /* substitute geénerated columns */ 


"(('sl'.'keyl' > 'z') and ("sl'.'key2' < 1000000) and 
. "Common field' = "abc')}" 


}， 
{ 
# 表 的 依赖 信息 
"table_dependencies": [ 
{ 
"table”: "“'sl'l", 
"row may_be null": false, 
"map_bit": 0, | 
"depends_on_map bits": [ 
] /* depends_ on map bits */ 
} 
] /* table dependencies */ 
}， 
{ | 
"ref optimizer key uses": | 
] /* ref optimizer key uses */ 
炬 | 
{ 


# 损 估 不 同 单 表 访问 方法 的 访问 成 本 


"rows_estimation": [ 


| 
"table": "'sl'™, 
"range analysis": 1 
“table_scan": { 者 全 表 扫 措 的 行 数 以 及 成 本 
"rows": 9688, 
"cost": 2036.7 
}/* table_scan */, 


: # 分 析 可 能 使 用 的 索引 
] "potential_ range indexes": [ 
{ 
"index": "PRIMARY"， ” # 主键 不 可 用 
"usable": false, 
"Cause": "not_applicable" 
} ， 
{ 
"index": "uk_key2"， 手 uk_key2 可 能 被 使 用 
"usable": true, 
"key parts": [ 
"key2" 
] /* key parts */ 
}, 








”| 
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"index": "idx keyl"， 寺 idx_keyl 可 能 被 使 用 
"usable": true, 
"key_parts": [ 
"keyl”, 
wid" 
] /* key parts */ 


CA 


"index": "idx_key3"， ## idx_key3 可 能 被 使 用 
"usable": true, 
"key_parts": [ 


"key3", 
nid" 
] /* key parts */ 


"index": "idx key part", # idx _keypart 不 可 用 
"usable": false, 
"cavse": "not applicable" 


} 
] /* potential range indexes */, 
"setup_range conditions": [ 
] /* setup_ range_ conditions */, 
"group index range": 1 

"chosen": false, 

"cause": "not group by or distinct" 
} /* group_ index range */, 


# 分 析 各 种 可 能 使 用 的 索引 的 成 本 
"analyzing_range alternatives": 1 
"range_scan alternatives": [ 

{ 
# 使 用 uk_key2 的 成 本 分 析 
"index": "uk key2", 
# 使 用 uk_key2 的 扫描 区 间 
"ranges": [ 

"NULL < key2 < 1000000" 

] /* ranges */, 
"index_ dives for eq ranges": true, # 是 否 使 用 index dive 
"rowid_ ordered": false, # 使 用 该 索引 获取 的 记录 是 否 按照 主键 排序 
"using_mrr": false, # 是 否 使 用 mrr 
"index_only": false, # 是 否 是 米 闵 索引 
"rows": 12, # 使 用 该 索引 获取 的 记录 条 数 
"cost"; 15.41， ## 使 用 该 索引 的 成 本 
"chosen": true # 是 否 选 择 该 索引 

入 

{ 
# 使 用 idx_key1 的 成 本 分 析 

"index": "idx_ keyl", 
# 使 用 idx_key1 的 扫描 区 间 
"ranges": [ 
Ss < Revi” 

] /* ranges */, 





”om / 
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"index dives_for eq ranges": true, # 同上 
"rowid ordered": false, # 同上 

"using mrr": false, # 同上 

"index only": false, # 同上 

"rows": 266, # 间 上 

"cost": 320.21, # 同上 

"chosen": false, # 同上 

“cause": "cost"” 考 因 成 本 太 大 而 不 选择 该 索引 


} ‘ | 


# 使 用 idx_key3 的 成 本 分 析 
"index": "idx_key3", 
# 使 用 idx_key3 的 扫描 区 间 
"ranges": | 
Na <t key3 <= a", 
"b <= key3 <= b", 
"C <= key3 <= cn 
i/* ranges 和 大 > 
"index dives_for eq ranges": true, 间 同上 
"rowidiordered": false， 志 同上 


"using_mrr": false， # 同上 
"index only": false， # 同上 
“rows": 21, # 同上 


"cost": 28.21， 手 同上 
"chosen": false， 手 同上 
"cause: "cost" # 同上 
) | 
] /* range_iscan_alternatives */， 


4 分 析 使 用 索 由 合并 的 成 本 
"analyzing_roworder intersect": { 
"usable": false, 
"cause": "too_few_ roworder scans" 
} /* analyzing_ roworder intersect */ 
)/* analyzing_range_alternatives 


# 对 于 上 述 单 表 查 询 s1 最 优 的 访问 方法 
“chosen_rangeL access_summary": { 
"range_access plan": { 
"type": "range_scan", 
"index": Muk_ key2", 
Srows"™s Tp 
"ranges":| [ 
"NULL <| key2 < 1000000" 
】/* rangbs */ 
} /* range_access_plan */, 
"rows_for plan": 12, 
"cost_for plan": 15.41, 
"chosen": true 
} /* chosen range_access_summary */ 
}】 /* range analysis */ 
}，, 


] /* rows estimation */ 
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# 分 析 各 种 可 能 的 执行 计划 
# (对 于 多 表 查 询 ， 可 能 有 很 多 种 不 同 的 方案 : 单 表 查询 的 方案 已 经 在 前 面 分 析 过 了 ， 直 接 选取 uk_key2 就 好 ) 
"considered execution plans": [ 
{ 
"plan prefix": [ 
] /* Plan prefix */, 
Sta “otr™ 
"best access path": { 
“considered access paths": [ 4 
{ 
"rows to scan": 12, 
"access type": "range", 
"range details": 1{ . 
“used index": "uk_key2" 
} /* range_details */, 
"resulting rows": 12, 
»*eoat”s 171.815 
"chosen": true 
) . 
] /* considered access paths */ 
} /* best access path */, 
ncondition filtering pct": 100, - 
"rows_for plan": 12, 
"CoBt for plan”: 17.8]1; 
"chosen": true 
} 
] /* considered execution Plans */ 
}， 
{ 
# 尝试 给 查询 添加 一 些 其 他 的 查询 条 件 
"attaching conditions to tables": | 
"original condition": "(('sl'.'keyl’' > 'z') and ('sl'.'key2' < 1000000) and 
('si'.'key3' in ('a’', 'b','c')) and ('sl'.'common field’' = "abc'))", : 
"attached conditions computation": [ 
] /* attached conditions computation */, 
"attached conditions summary": [ 
{ 
“tableo"s 有 
"wattached”s (Bs Koy Ss) Bnd (1 "key2" <€ I000000) ana 
("asl keyv3° ae) and (sel. "common Held’ = “abe’))” 
} 
] /* attached conditions_summary */ 
} /* attaching conditions to tables */ 
}, 
{ 
# 再 稍稍 改进 一 下 执行 计划 
"refine Plan": [ 
{ 
kA 
"pushed index condition": "(sl'.'key2' < 1000000)", 
“table_condition attached"”:  "((` 31" 。 Xeyl > 'z') and ('sl'.'key3' in 
(Va Db" "oN hend Ua .Common. Hold DC 3 
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} 
] /* refine plan */ 
} 
] /* steps */ 
) /* join optimization #/ 
}, 
{ 
"join execution": 1 站 execute 阶 段 
"select#": 1, 
"steps": | 
] /* steps */ 
} /* join execution */ 
) 
] /* steps */ 
} 


# 因 优 化 过 程 文 本 太 多 而 丢弃 的 文本 字 节 大 小 ， 值 为 0 时 表示 并 没有 丢弃 
MISSING_BYTES_BEYOND MAX MEM SIZE: 0 

# 权限 字段 

INSUFFICIENT_PRIVILEGES: 0 


l row in Set (0.00 sec) 


大 家 看 到 这 个 输出 的 第 一 感觉 应 该 就 是 “这 内 容 也 太 多 了 吧 ” 其 实 这 只 是 查询 优化 器 执 
行 过 程 中 的 一 小 部 分 ， 设 计 MySQL 的 大 叔 可 能 会 在 之 后 的 版 本 中 添加 更 多 的 优化 过 程 信息 。 
这 些 信息 看 似 杂 乱 ， 其 实 还 是 很 有 规律 的 。 优化 过 程 大 致 分 为 了 3 个 阶段 : 

@ prepare 阶段 ; 

e optimize 阶段 ; 

@ execute 阶段 。 | 

我 们 所 说 的 基于 成 本 的 优化 主要 集中 在 optimize 阶段 。 对 于 单 表 查 询 来 说 ， 主 要 关注 的 是 
optimize 阶段 的 rows_estimation 过 程 。 这 个 过 程 深入 分 析 了 针对 单 表 查 询 的 各 种 执行 方案 的 成 
本 ; 对 于 多 表 连 接 查询 来 说 ， 我 们 更 多 关注 的 是 considered_execution plans 过 程 。 这 个 过 程 中 
会 号 明 各 种 不 同 的 表 连接 顺序 所 对 应 的 成 本 。 反正 查询 优化 器 最 终 会 选择 成 本 最 低 的 方案 来 作 
为 最 终 的 执行 计划 ， 即 我 们 使 用 EXPLAIN 语句 所 展现 出 的 那 种 方案 。 

如 果 有 同学 对 使 用 EXPLAIN 语句 展示 出 的 针对 某 个 查询 的 执行 计划 很 不 理解 ， 可 以 尝试 
使 用 optimizer trace 功能 详细 了 解 每 一 种 执行 方案 对 应 的 成 本 。 相信 这 个 功能 能 让 大 家 更 深入 
地 了 解 MySQL 查询 优化 器 。 


上 文 介绍 的 rows_estimation 过 程 分 析 的 其 实 都 是 range 访问 方法 对 应 的 成 本 ， 并 没 - 

-< 有 涉及 ref 访问 方法 。 对 于 ref 访问 方法 来 说 ,在 计算 回 表 操作 的 IO 成 本 时 存在 天 花 ， 
全 本 ( 第 12 章 中 有 提 及 ) ref 访问 方法 所 对 应 的 成 本 是 被 单独 计算 的 ， 计 算 过 程 体现 在 
小 贴 considered execution _plans:>best access ) th-> o i idered_access paths 中 ， 本 例 中 没有 - 
使 用 ref 访问 方法 执行 查询 的 场景 ， 在 optimiz i 
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17.1 缓存 的 重要 性 


通过 前 面 章节 的 啼 暑 我 们 知道 ， 对 于 使 用 InnoDB 存储 引擎 的 表 来 说 ， 无 论 是 用 于 存储 用 
户 数据 的 索引 〈 包 括 聚 艇 索引 和 二 级 索引 )， 还 是 各 种 系统 数据 ， 都 是 以 页 的 形式 存放 在 表 空 
间 中 。 所 谓 的 表 空 间 ， 只 不 过 是 InnoDB 对 一 个 或 几 个 实际 文件 的 抽象 。 也 就 是 说 ， 我 们 的 数 
据说 到 底 还 是 存储 在 磁盘 上 。 各 位 同学 也 都 知道 ， 磁 盘 的 速度 慢 得 “ 跟 乌 龟 一 样 ?>， 怎 么 能 配 
得 上 “ 快 如 风 ， 疾 如 电 ” 的 CPU 呢 ? 所 以 InnoDB 存储 引擎 在 处 理 客户 端的 请 求 时 ， 如 果 需 
要 访问 茶 个 页 的 数据 ， 就 会 把 完整 的 页 中 的 数据 全 部 加 载 到 内 存 中 。 也 就 是 说 ， 即 使 只 需要 访 
问 一 个 页 的 一 条 记录 ， 也 需要 先 把 整个 页 的 数据 加 载 到 内 存 中 。 将 整个 页 加 载 到 内 存 中 后 就 可 
以 进行 读 写 访问 了 ， 而 且 在 读 写 访问 之 后 并 不 着 急 把 该 页 对 应 的 内 存 空间 释放 掉 ， 而 是 将 其 组 
存 起 来 ， 这 样 将 来 有 请 求 再 次 访问 该 页 面 时 ， 就 可 以 省 下 磁盘 IO 的 开销 了 。 


17.2 InnoDB 的 Buffer Pool 


17.2.1 哈 是 Buffer Pool 


为 了 缓存 磁盘 中 的 页 ， 设 计 InnoDB 的 大 叔 在 MySQL 服务 器 启动 时 就 向 操作 系统 申请 了 
一 片 连续 的 内 存 ， 他 们 给 这 片 内 存 起 了 个 名 字 一 一 Buffer Pool (缓冲 池 )。 它 有 多 大 了 呢 ? 这 个 
其 实 取决 于 我 们 机 器 的 配置 : 如 果 你 是 “土豪 ”， 有 512GB 内 存 ， 分 配 个 几 百 GB 作为 Buffer 
Pool 当然 没有 问题 如果 没 那么 有 钱 ， 设 置 得 小 一 点 也 问题 不 大 。 默认 情况 下 ，Bnuffer Pool 
只 有 128MB。 如 果 嫌 弃 这 个 128MB 太 大 或 者 太 小 ， 可 以 在 启动 服务 器 的 时 候 配置 innodb 
buffer pool size 启动 选项 (这 个 启动 选项 表示 Buffer Pool 的 大 小 ) 的 值 ， 就 像 下 面 这 样 : 





[server] 
innodb buffer pool size = 268435456 


innodb_buffer_pool_size 的 单位 是 字 节 ， 所 以 上 面 的 配置 指定 了 Buffer Pool 的 大 小 为 256MB。 
需要 注意 的 是 ，Buffer Pool 也 不 能 太 小 ， 最 小 值 为 SMB ( 当 innodb buffer pool size 的 值 小 于 
5M 时 会 自动 设置 成 5SMB)。 


17.2.2 Buffer Pool 内 部 组 成 
Buffer Pool 对 应 的 一 片 连续 的 内 存 被 划分 为 若干 个 页 面 ， 页 面 大 小 与 InnoDB 表 空 间 使 
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用 的 页 面 大 小 一 致 ， 默 认 都 是 16KB。 为 了 与 磁盘 中 的 页 面 区 分 开 来 ， 我 们 这 里 把 这 些 Buffer 

Pool 中 的 页 面 称 为 缓冲 页 。 为 了 更 好 地 管理 Buffer Pool 中 的 这 些 缓冲 页 ， 设 计 InnoDB 的 大 叔 

为 每 一 个 缓冲 页 都 创建 了 一 些 控制 信息 。 这 些 控制 信息 包括 该 页 所 属 的 表 空 间 编号 、 页 号 、 组 

冲 页 在 Buffer Pool 中 的 地 址 、 链 表 节 点 信息 等 。 除了 这 些 信息 之 外 ， 当 然 还 有 一 些 别 的 控制 
言 轧 ， 我 们 这 就 不 全 踪 劝 一 遍 了 ， 等 用 到 了 再 说 。 

每 个 缓冲 页 对 应 的 控制 信息 占用 的 内 存 大 小 是 相同 的 ， 我 们 把 每 个 页 对 应 的 控制 信息 占用 

的 一 块 内 存 称 为 一 个 控制 块 。 控 制 块 与 缓冲 页 是 一 一 对 应 的 ， 它们 都 存放 到 Buffer Pool 中 。 其 


中 控制 块 存放 到 Buffer Pool 的 前 面 ， 缓 冲 页 存放 到 Buffer Pool 的 后 面 ， 所 以 整个 Buffer Pool 
对 应 的 内 存 空间 看 起 来 如 图 17-1 所 示 。 





图 17-1 Buffer Pool 对 应 的 内 存 空间 


号 ? 控制 块 和 缓冲 页 之 间 的 那个 碎片 是 什么 玩意 儿 ? 大 家 想 想 看 ， 每 一 个 控制 块 都 对 应 一 
个 缓冲 页 ， 那 么 在 分 配 足 够 多 的 控制 块 和 缓冲 页 后 ， 剩余 的 那 点 儿 空 间 可 能 不 够 一 对 控制 块 和 
胺 剖 页 的 大 小 ， 自 然 也 就 用 不 到 了 。 这 个 用 不 到 的 内 存 空间 就 称 为 碎片 。 当然 ， 如 果 把 Buffer 
Pool 的 大 小 设置 得 刚刚 好 ， 也 可 能 不 会 产生 碎片 。 


在 DEBUG 模式 下 ， 每 个 控制 块 大 约 占用 缓冲 页 大 小 的 5% ( 非 DEBUG 模式 下 会 更 
~ 点 ) 在 MySQL 5722 版 本 的 DEBUG 模式 下 ， 每 个 控制 块 占用 的 大 小 是 808 字 节 . 
PD: 5 我 们 设置 的 innodb_buffer pool size 并 不 包含 这 部 分 控制 块 占用 的 内 存 空间 人 se 也 
小 由 十 就 是 说 InnoDB 在 为 Buffer Pool 向 操作 系统 申请 连续 的 内 存 空间 时 ， 这 片 连 续 的 内 存 空 
间 会 比 innodb buffer _pool size 的 值 大 5% 左右 ， I 人 


17.2.3 free 链表 的 管理 


当 我 们 最 初 启动 MySQL 服务 器 的 时 候 ， 需 要 完成 Buffer Pool 的 初始 化 过 程 。 就 是 先 向 操 
作 系统 申请 Buffer Pool 的 内 存 空间 ， 然 后 把 它 划 分 成 若干 对 控制 块 和 缓冲 页 。 但 是 此 时 并 没 
有 真实 的 磁盘 页 被 缓存 到 Buffer Pool 中 (因为 还 没有 用 到 )， 之 后 随 着 程序 的 运行 ， 会 不 断 地 
有 磁盘 上 的 页 被 缓存 到 Buffer Pool 中 。 

那么 问题 来 了 ， 从 磁盘 上 读 取 一 个 页 到 Buffer Pool 中 时 ， 该 放 到 哪个 缓冲 页 的 位 置 呢 ? 
或 者 说 怎么 区 分 Buffer Pool 中 哪些 缓冲 页 是 空闲 的 ， 哪 些 已 经 被 使 用 了 呢 ? 我 们 最 好 在 某 个 
地 方 记 录 Buffer Pool 中 哪些 缓冲 页 是 可 用 的 。 这 个 时 候 缓 冲 页 对 应 的 控制 块 就 派 上 大 用 场 
省 一 一 我 们 可 以 把 所 有 空闲 的 缓冲 页 对 应 的 控制 块 作为 一 个 节点 放 到 一 个 链表 中 ， 这 个 链表 也 
可 以 称 为 free 链表 (或 者 说 空闲 链表 )。 刚 刚 完成 初始 化 的 Buffer Pool 中 ， 所 有 的 缓冲 页 都 是 
空 采 的 ， 所 以 每 一 个 缓冲 页 对 应 的 控制 块 都 会 加 入 到 free 链表 中 。 假 设 该 Buffer Pool 中 可 容 
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纳 的 缓冲 页 数量 为 an， 那么 增加 了 free 链表 的 效果 图 如 图 17-2 所 示 。 








这 个 是 Buffer Pool 


ITGC 了 ERXI 


控制 块 中 包含 着 free 
链表 的 pre 和 next 指 针 





图 17-2 ”free 链表 的 效果 图 


从 图 17-2 可 以 看 出 ， 为 了 管理 好 这 个 free 链表 ， 我 们 特意 为 这 个 链表 定义 了 一 个 基 节 点 ， 
里 面包 含 链表 的 头 节点 地 址 、 尾 节点 地 址 ， 以 及 当前 链表 中 节点 的 数量 等 信息 。 这 里 需要 注意 
的 是 ， 链 表 的 基 节 点 占用 的 内 存 空间 并 不 包含 在 为 Buffer Pool 申请 的 一 大 片 连续 内 存 空间 之 
内 ， 而 是 一 块 单独 申请 的 内 存 空间 。 


链表 基 节 点 占用 的 内 存 空间 并 不 大 ,在 MySQL 5.7.22 版 本 中 ， 每 个 基 节 点 只 占用 

渴 : 40 字 和 节 ; 后 面 即将 介绍 的 许多 不 同 的 链表 中 ， 它 们 的 基 节点 的 内 存 分 配方 式 与 free 链 

小 贴 十 表 的 关节 点 是 一 样 的 ， 都 是 一 类 单独 申请 的 40 字 节 的 内 在 空间 ， 并 不 包含 在 为 Buffer 
Pool 申请 的 一 大 片 连续 内 存 空间 之 内 . 


有 了 这 个 free 链表 之 后 事 儿 就 好 办 了 ， 每 当 需 要 从 磁盘 中 加 载 一 个 页 到 Buffer Pool 中 时 ， 
就 从 free 链表 中 取 一 个 空闲 的 缓 神 页 ， 并 且 把 该 缓冲 页 对 应 的 控制 块 的 信息 填 上 《就 是 该 页 所 
在 的 表 空 间 、 页 号 之 类 的 信息 )， 然 后 把 该 缓冲 页 对 应 的 free 链表 节点 〈 也 就 是 对 应 的 控制 块 ) 
从 链表 中 移 除 ， 表 示 该 缓冲 页 已 经 被 使 用 了 。 


“从 链表 中 取 一 个 缓冲 页 对 应 的 控制 块 ”这 样 的 陈述 有 点 儿 繁琐 ， 在 后 边 某 些 场景 
;全 :下 我 们 可 能 会 将 其 简称 为 “从 链表 中 取 一 个 缓 首页 ”大 家 心里 要 清楚 我 们 真正 从 链表 
小 由 十 ”中 获取 的 是 控制 块 ， 通 过 控制 块 可 以 访问 到 真正 的 页 就 好 了 。 同 理 ,，“ 人 遍历 Buffer Pool 

中 的 缕 冲 页 ”的 意思 其 实 是 “遍历 Buffer Pool 中 各 个 缓冲 页 对 应 的 控制 块 ” 


17.2.4 ”缓冲 页 的 哈 希 处 理 


前 文 说 过 ， 当 我 们 需要 访问 某 个 页 中 的 数据 时 ， 就 会 把 该 页 从 磁盘 加 载 到 Buffer Pool 中 。 

如 果 该 页 已 经 在 Buffer Pool 中 的 话 ， 直 接 使 用 就 可 以 了 。 那 么 问题 也 就 来 了 ， 我 们 怎么 知道 该 

] 页 在 不 在 Buffer Pool 中 呢 ? 难 不 成 需要 依次 遍历 Buffer Pool 中 的 各 个 缓冲 页 么 ? 一 个 Buffer Pool 
中 的 绥 冲 页 这 么 多 ， 都 遍历 完 岂 不 是 要 累 死 ? 


i 
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再 回头 想 想 ， 我 们 其 实 是 根据 表 空 间 号 + 页 号 来 定位 一 个 页 的 ， 也 就 相当 于 表 空 间 号 + 页 号 是 
一 个 key( 键 )， 缓 冲 页 控制 块 就 是 对 应 的 value( 值 )。 怎 么 通过 一 个 key 来 快速 找到 一 个 value 呢 ? 
当然 是 哈 希 表 了 ! 


全 : 哈 ? 别 告诉 我 你 不 知道 哈 希 表 是 哈 ? 届 们 这 一 本 玉林 忆 亲 不 放下 的 知识 
小 由 十 ”如 果 你 不 知道 ， 就 去 找 本 数据 结构 的 书 看 看 吧 . 


所 以 我 们 可 以 用 表 空间 号 + 页 号 作为 key， 用 缓冲 页 控制 块 的 地 址 作为 value ,来 创建 一 个 
哈 希 表 。 在 需要 访问 某 个 页 的 数据 时 ， 先 从 哈 希 表 中 根据 表 空 间 号 + 页 号 看 看 是 否 有 对 应 的 组 
冲 页 。 如 果 有 ， 直 接 使 用 该 缓冲 页 就 好 ; 如 果 没 有 ， 就 从 free 链表 中 选 一 个 空闲 的 缓冲 页 ， 然 
后 把 磁盘 中 对 应 的 页 加 载 到 该 缓冲 页 的 位 置 。 


17.2.5 ”flush 链表 的 管理 


如 果 我 们 修改 了 Buffer Pool 中 某 个 缓冲 页 的 数据 ， 它 就 与 磁盘 上 的 页 不 一 致 了 ， 这 样 的 
绥 神 页 也 称 为 脏 页 (dirty page)。 当 然 ， 我 们 可 以 每 当 修改 完 某 个 缓冲 页 时 ， 就 立即 将 其 刷新 
到 磁盘 中 对 应 的 页 上 。 但 是 频繁 地 往 磁 盘 中 写 数据 会 严重 影响 程序 的 性 能 〈 毕 竟 磁 盘 慢 得 “ 像 
乌 包 一 样 ”)。 所 以 每 次 修改 缓冲 页 后 ， 我 们 并 不 着 急 立 即 把 修改 刷新 到 磁盘 上 ， 而 是 在 未 来 的 
某 个 时 间 点 进行 刷新 。 至 于 这 个 刷新 的 时 间 点 会 在 后 面 进行 说 明 ， 现 在 先 不 用 管 。 

但 是 ， 如 果 不 立 即将 修改 刷新 到 磁盘 ， 那 之 后 再 刷新 的 时 候 我 们 怎么 知道 Buffer Pool 中 
哪些 页 是 脏 页 ， 哪 些 页 从 来 没 被 修改 过 呢 ? 总 不 能 把 所 有 的 缓冲 页 都 刷新 到 磁盘 上 吧 。 假 如 
Buffer Pool 被 设置 得 很 大 ， 比 如 有 300GB， 那 么 一 次 性 刷新 这 么 多 数据 岂 不 是 要 慢 死 ! 所 以 ， 
我 们 不 得 不 再 创建 一 个 存储 脏 页 的 链表 ， 凡 是 被 修改 过 的 缓冲 页 对 应 的 控制 块 都 会 作为 一 个 节 
点 加 入 到 这 个 链表 中 。 因 为 这 个 链表 节点 对 应 的 缓冲 页 都 是 需要 被 刷新 到 磁盘 上 的 ， 所 以 也 称 
为 flush 链表 。flush 链表 的 构造 与 free 链表 差不多 。 假 设 Buffer Pool 在 某 个 时 间 点 的 脏 页 数量 
为 n， 那 么 对 应 的 flush 链表 如 图 17-3 所 示 。 





i 一 一 一 一 一 一 
一 一 和 2 了 7 这 个 是 Buffer Pool 
六 ¢ 2 受 冲 











这 个 是 flush 链 表 的 基 节 点 ， 包 
含 链表 的 头 节 点 、 尾 节点 指针 
以 及 链表 中 节点 数量 等 信息 
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.、%- ”如 果 一 个 绥 冲 页 是 空 闪 的 ， 那 它 肯 定 不 可 能 是 脏 页 :如果 一 个 
9- 肯定 就 不 是 空闲 的 - 也 就 是 说 ， gd 绿林 能 上 二 Geo 外表 的 上 
小 贴 士 ” 也 是 flush 链表 的 节 志 - A 


17.2.6 LRU 链表 的 管理 


1. 缓冲 区 不 够 的 窘境 

Buffer Pool 对 应 的 内 存 大 小 毕竟 是 有 限 的 。 如 果 需 要 缓存 的 页 占用 的 内 存 大 小 超过 了 
Buffer Pool 的 大 小 ， 也 就 是 free 链表 中 已 经 没有 多 余 的 空闲 缓冲 页 了 ， 这 岂 不 是 很 尴 傣 ! 发 生 
了 这 样 的 事 儿 该 咋 办 ? 当然 是 把 某 些 旧 的 缓冲 页 从 Buffer Pool 中 移 除 ， 然 后 再 把 新 的 页 放 进 
来 。 那 么 问题 来 了 : 移 除 哪些 缓 神 页 呢 ? 

为 了 回答 这 个 问题 ， 我 们 还 需要 回 到 设立 Buffer Pool 的 初 训 一 一 想 减 少 磁盘 IJO， 最 好 每 
次 在 访问 某 个 页 的 时 候 它 已 经 被 加 载 到 Buffer Pool 中 了 。 假 设 我 们 一 共 访 问 了 an 次 页 ， 那 么 
被 访问 的 页 已 经 在 Buffer Pool 中 的 次 数 除 以 n 就 是 Buffer Pool 命中 率 。 我 们 的 期 望 是 Buffer 
Pool 命中 率 越 高 越 好 。 从 这 个 角度 出 发 ， 回 想 一 下 我 们 的 微 信 聊天 列表 ， 排 在 前 面 的 都 是 
最 近 频 繁 使 用 的 ， 排 在 后 面 的 自然 就 是 最 近 很 少 使 用 的 。 假 如 列表 能 容纳 的 联系 人 有 限 ， 你 
是 把 最 近 很 频繁 使 用 的 留 下 ， 还 是 把 最 近 很 少 使 用 的 留 下 呢 ? 当然 是 留 下 最 近 很 频繁 使 用 
的 了 。 


2. 简单 的 LRU 链表 

管理 Buffer Pool 的 缓冲 页 其 实 也 是 这 个 道理 。 当 Buffer Pool 中 不 再 有 空闲 的 缓冲 页 
时 ， 就 需要 淘汰 掉 最 近 很 少 使 用 的 部 分 缓冲 页 。 不 过 ， 我 们 怎么 知道 哪些 缓冲 页 最 近 频 繁 
使 用 ， 哪 些 最 近 很 少 使 用 呢 ? 神奇 的 链表 再 一 次 派 上 了 用 场 。 我 们 可 以 再 创建 一 个 链表 ， 
由 于 这 个 链表 是 为 了 按照 最 近 最 少 使 用 的 原则 去 淘汰 缓冲 页 的 ， 所 以 这 个 链表 可 以 被 称 为 
LRU (Least Recently Used) 链表 。 当 需要 访问 某 个 页 时 ， 可 以 按照 下 面 的 方式 处 理 LRU 
链表 : 

e ”如果 该 页 不 在 Buffer Pool 中 ， 在 把 该 页 从 磁盘 加 载 到 Buffer Pool 中 的 缓冲 页 时 ， 就 把 

该 缓冲 页 对 应 的 控制 块 作为 节点 塞 到 LRU 链表 的 头 部 ; 
e 如果 该 页 已 经 被 加 载 到 Buffer Pool 中 ， 则 直接 把 该 页 对 应 的 控制 块 移动 到 LRU 链表 
的 头 部 。 

也 就 是 说 ， 只 要 我 们 使 用 到 某 个 缓冲 页 ， 就 把 该 缓冲 页 调整 到 LRU 链表 的 头 部 ， 这 样 
LRU 链表 尾部 就 是 最 近 最 少 使 用 的 缓冲 页 了 。 所 以 ， 当 Buffer Pool 中 的 空闲 缓冲 页 使 用 完 时 ， 
到 LRU 链表 的 尾部 找 些 缓冲 页 淘汰 掉 就 OK 了 。 真 简单 ! 

3. 划分 区 域 的 LRU 链表 

我 们 高 兴 的 太 早 了 。 上 面 这 个 简单 的 LRU 链表 用 了 没 多 长 时 间 就 发 现 问题 了 。 它 存在 下 
面 这 两 种 比较 尴 众 的 情况 。 

e 人 情况 1: InnoDB 提供 了 一 个 看 起 来 比较 贴心 的 服务 一 一 预 读 (read ahead)。 我 们 前 边 

说 过 只 有 当 我 们 用 到 某 个 页 时 ， 才 会 将 其 从 磁盘 加 载 到 Buffer Pool 中 ， 用 不 到 则 不 加 
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载 。 所 谓 预 读 ， 就 是 InnoDB 认为 执行 当前 的 请 求 时 ， 可 能 会 在 后 面 读 取 某 些 页 面 ， 

于 征 就 预先 把 这 些 页 面 加 载 到 Buffer Pool 中 。 根据 触发 方式 的 不 同 ， 预 读 又 可 以 细 分 

为 下 面 两 种 。 

线性 预 读 : 设计 InnoDB 的 大 叔 提供 了 一 个 系统 变量 innodb_read ahead threshold, 
如 果 顺 序 访问 的 某 个 区 (extent) 的 页 面 超过 这 个 系统 变量 的 值 ， 就 会 触发 一 次 异 
步 读 取 下 一 个 区 中 全 部 的 页 面 到 Buffer Pool 中 的 请 求 。 注 意 异步 读 取 意 味 着 从 磁 
盘 中 加 载 这 些 被 预 读 的 页 面 时 ， 并 不 会 影响 到 当前 工作 线程 的 正常 执行 。 innodb 
read ahead _ threshold 系统 变量 的 值 默认 是 56， 我 们 可 以 在 服务 器 启 动 时 通过 启动 
选项 来 调整 该 值 ， 或 者 在 服务 器 运行 过 程 中 直接 调整 该 系统 变量 的 值 。 由 于 它 是 
一 个 全 局 变量 ， 因 此 要 使 用 SET GLOBAL 命令 来 修改 。 

s 随机 预 读 : 如 果 某 个 区 的 13 个 连续 的 页 面 都 被 加 载 到 了 Buffer Pool 中 ， 无 论 这 些 
页 面 是 不 是 顺序 读 取 的 ， 都 会 触发 一 次 异步 读 取 本 区 中 所 有 其 他 页 面 到 Buffer Pool 
中 的 请 求 。 设 计 InnoDB 的 大 叔 同时 提供 了 innodb_random read ahead 系统 变量 ， 
它 的 默认 值 为 OFF， 也 就 意味 着 InnoDB 并 不 会 默认 开启 随机 预 读 的 功能 。 如 果 想 
开启 该 功能 ， 可 以 通过 修改 启动 选项 或 者 直接 使 用 SET GLOBAL 命令 把 该 变量 的 
值 设 置 为 ON。 

预 读 本 来 是 个 好 事 儿 ， 如 果 预 读 到 Buffer Pool 中 的 页 被 成 功 地 使 用 到 ， 那 就 可 以 极 大 地 
提高 语句 执行 的 效率 。 可 是 如 果 用 不 到 呢 ? 这 些 预 读 的 页 都 会 放 到 LRU 链表 的 头 部 。 但 是 ， 
如 果 此 时 Buffer Pool 的 容量 不 太 大 ， 而 且 很 多 预 读 的 页 面 都 没有 用 到 的 话 ， 就 会 导致 处 于 
LRU 链表 尾部 的 一 些 缓冲 页 会 很 快 被 淘汰 掉 ， 从 而 大 大 降低 Buffer Pool 命中 率 。 

e 情况 2: 有 的 小 伙伴 可 能 会 写 一 些 需要 进行 全 表 扫 描 的 语句 (比如 在 没有 建立 合适 的 

索引 或 者 压根 儿 没有 WHERE 子 句 的 查询 时 )。 

全 表 扫 描 意味 着 什么 ? 意味 着 将 访问 该 表 的 聚 簇 索引 的 所 有 叶子 节 点 对 应 的 页 (当然 ， 
扫描 叶子 节点 时 ， 首 先 需 要 从 B+ 树 中 定位 到 第 一 个 叶子 节点 的 第 一 条 记录 。 这 个 过 程 还 得 
访问 一 些 内 节点 )! 如 果 需 要 访问 的 页 面 特别 多 ， 而 Buffer Pool 义 不 能 全 部 容纳 它们 的 话 ， 
这 束 意 味 着 需要 将 其 他 语句 在 执行 过 程 中 用 到 的 页 面 “排挤 ”出 Buffer Pool， 之 后 在 其 他 
语句 重新 执行 时 ， 义 需要 重新 将 需要 用 到 的 页 从 磁盘 加 载 到 Buffer Pool 中 (这 就 像 我 在 一 
个 饭店 吃 着 好 好 的 ， 忽 然 来 了 一 群 人 把 我 从 饭店 中 赶 了 出 去 ， 等 他 们 吃 完 之 后 我 又 得 重新 点 
菜 吃 )。 

我 们 在 业务 中 一 般 不 对 很 大 的 表 执行 全 表 扫 描 操作 ， 这 是 一 个 很 耗 时 的 操作 ， 只 有 在 特定 
场景 下 偶尔 对 很 大 的 表 执 行 全 表 扫 描 操作 。 由 于 对 很 大 的 表 执 行 全 表 扫 描 操作 可 能 要 把 Buffer 
Pool 中 的 缓冲 页 换 一 次 ， 这 会 严重 影响 到 其 他 查询 对 Buffer Pool 的 使 用 ， 从 而 降低 了 Bu 人 
Pool 命中 率 。 

一 言 珊 之 ， 可 能 降低 Buffer Pool 命中 率 的 两 种 情况 如 下 所 示 : 

e 加载 到 Buffer Pool 中 的 页 不 一 定 被 用 到 ; 

e 如 果 有 非常 多 的 使 用 频率 偏 低 的 页 被 同时 加 载 到 Buffer Pool 中 ， 则 可 能 会 把 那些 使 用 

频率 非常 高 的 页 从 Buffer Pool 中 淘汰 掉 。 


因为 这 两 种 情况 的 存在 ， 设 计 InnoDB 的 大 叔 把 这 个 LRU 链表 按照 一 定 比例 分 成 两 截 
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e 一 部 分 存储 使 用 频率 非常 高 的 缓冲 页 ; 这 一 部 分 链表 也 称 为 热 数据 ， 或 者 称 为 young 
区 域 ; 

e 男 一 部 分 存储 使 用 频率 不 是 很 高 的 缓冲 页 ; 这 一 部 分 链表 也 称 为 冷 数据 ， 或 者 称 为 old 
区 域 。 

为 了 方便 大 家 理解 ， 我 们 把 示意 图 进行 了 简化 ， 如 图 17-4 所 示 。 


LRU 链 表示 意图 


这 个 是 LRU 链 表 的 基 节 点 ， 
包含 链表 的 头 节点 、 尾 节点 指 
针 以 及 链表 中 节点 数量 等 信息 





图 17-4 LRU 链表 示意 图 


需要 特别 注意 的 一 点 是 ， 我 们 是 按照 某 个 比例 将 LRU 链表 分 成 两 半 的 ， 而 不 是 某 些 节点 
固定 位 于 young 区 域 ， 某 些 节 点 固定 位 于 old 区 域 。 随 着 程序 的 运行 ， 某 个 节点 所 属 的 区 域 也 
可 能 发 生变 化 。 那 么 ， 这 个 划分 成 两 截 的 比例 是 怎么 确定 的 呢 ? 对 于 InnoDB 存储 引擎 来 说 ， 
我 们 可 以 通过 查看 系统 变量 innodb old blocks pct 的 值 来 确定 old 区 域 在 LRU 链表 中 所 占 的 
比例 。 比 如 下 面 这 样 : 


mysql> SHOW VARIABLES LIKE ‘innodb old blocks pct'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
| Variable name | Value | 
+ 一 一 一 -一 一 一 一 一 一 一 一 -一 -一 一- 一- 一 一 一 + 一 一 一 一 一 一 一 - 
| innodb old blocks pct | 37 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 


1 row in set (0.01 sec) 


从 结果 可 以 看 出 ， 默 认 情 况 下 old 区 域 在 LRU 链表 中 所 占 的 比例 是 37%。 也 就 是 说 ，old 
区 域 大 约 占 LRU 链表 的 3/8。 这 个 比例 是 可 以 进行 设置 的 ， 我 们 可 以 在 启动 服务 器 时 通过 修改 
innodb_old_blocks_pct 启动 选项 来 控制 old 区 域 在 LRU 链表 中 所 占 的 比例 。 比 如 在 配置 文件 中 
书写 下 面 的 语句 : 


[server]) 
innodb old blocks pct = 40 


这 样 在 启动 服务 器 后 ，old 区 域 占 LRU 链表 的 比例 就 是 40%。 当 然 ， 在 服务 器 运行 期 间 
也 可 以 修改 这 个 系统 变量 的 值 。 不 过 需要 注意 的 是 ， 这 个 系统 变量 属于 全 局 变量 ， 所 以 我 们 需 
要 使 用 SET GLOBAL 命令 来 修改 : 


re 
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SET GLOBAL innodb old blocks pct = 40; 


有 了 这 个 被 划分 成 young 和 old 区 域 的 LRU 链表 之 后 ， 设计 InnoDB 的 大 叔 就 可 以 针对 前 
文 提 到 的 两 种 可 能 降低 Buffer Pool 命中 率 的 情况 进行 优化 了 。 


e 针对 预 读 的 页 面 可 能 不 进行 后 续 访 问 的 优化 。 
设计 InnoDB 的 大 叔 规定 ， 当 磁盘 上 的 某 个 页 面 在 初次 加 载 到 Buffer Pool 中 的 某 个 缓冲 
页 时 ， 该 缓冲 页 对 应 的 控制 块 会 放 到 old 区 域 的 头 部 。 这 样 一 来 ， 预 读 到 Buffer Pool 却 不 进 


行 后 续 访 问 内 外国 席 会 被 逐 浙 久 old 区 域 逐 出 ， 而 不 会 影响 young 区 域 中 使 用 比较 频繁 的 组 
冲 页 。 


i 


e 针对 全 表 扫 描 时 ， 短 时 间 内 访问 大 量 使 用 频率 非常 低 的 页 面 的 优化 。 

在 进行 全 表 扫 描 时 ， 虽 然 首次 加 载 到 Buffer Pool 中 的 页 放 到 了 old 区 域 的 头 部 ， 但 是 后 续 
会 被 马上 访问 到 ， 每 次 进行 访问 时 又 会 把 该 页 放 到 young 区 域 的 头 部 ， 这 样 仍然 会 把 那些 使 用 
频率 比较 高 的 页 面 给 “排挤 ”下 去 。 有 的 读者 会 想 : 是 否 可 以 在 第 一 次 访问 该 页 面 时 不 将 其 从 
z old 区 域 移动 到 young 区 域 的 头 部 ， 而 是 在 后 续 访 问 时 再 将 其 移动 到 young 区 域 的 头 部 ?回答 是 : 
行 个 通 ! 因为 设计 InnoDB 的 大 叔 规定 ， 每 次 去 页 面 中 读 取 一 条 记录 时 ， 都 算是 访问 一 次 页 面 。 

而 一 个 页 面 中 可 能 会 包含 很 多 条 记录 ， 也 就 是 说 读 取 完 某 个 页 面 的 记录 就 相当 于 访问 了 这 个 页 
面 好 多 次 。 

咋 办 ? 全 表 扫 描 有 一 个 特点 ， 那 就 是 它 的 执行 频率 非常 低 ， 谁 也 不 会 没事 儿 写 全 表 扫 描 的 
语句 玩 儿 。 而 且 在 执行 全 表 扫 描 的 过 程 中 ， 即使 茶 个 页 面 中 有 很 多 条 记录 ， 尽 管 每 读 取 一 条 
记录 都 算是 访问 一 次 页 面 ， 但 是 这 个 过 程 所 花费 的 时 间 也 是 非常 少 的 。 所 以 我 们 只 需要 规定 ， 
在 对 某 个 处 于 old 区 域 的 缓冲 页 进行 第 一 次 访问 时 ， 就 在 它 对 应 的 控制 块 中 记录 下 这 个 访问 时 
则 ， 如 果 后 续 的 访问 时 间 与 第 一 次 访问 的 时 间 在 某 个 时 间 间 隔 内 ， 那么 该 页 面 就 不 会 从 old 区 

域 移动 到 young 区 域 的 头 部 ， 否 则 将 它 移动 到 young 区 域 的 头 部 。 这 个 间隔 时 间 是 由 系统 变量 

innodb_old_blocks_time 控制 的 ， 我 们 可 以 看 一 下 : 





mysql> SHOW VARIABLES LIKE 'innodb_old blocks time'; 


| We Ven 


| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 
| innodb old blocks time | 1000 | 
: -一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +— 一 一 一 -一 + 


1 row in set (0.01 sec) 


这 个 innodb_old_blocks_time 变量 的 默认 值 是 1,000， 单 位 是 ms， 也 就 意味 着 对 于 从 磁盘 
加 载 到 LRU 链表 中 old 区 域 的 某 个 页 来 说 ， 如 果 第 一 次 和 最 后 一 次 访问 该 页 面 的 时 间 间 隔 小 
于 ls， 那么 该 页 是 不 会 加 入 到 young 区 域 的 。 很 明显 ， 在 一 次 全 表 扫 描 的 过 程 中 ， 多 次 访问 
一 个 页 面 〈《 也 就 是 读 取 同 一 个 页 面 中 的 多 条 记录 ) 的 时 间 不 会 超过 1s。 当 然 ， 与 innodb old 
blocks_pct 一 样 ， 我 们 也 可 以 在 服务 器 启动 或 运行 时 设置 innodb_ old blocks time 的 值 。 这 里 就 
不 资 述 了 ， 大 家 自己 试 试 吧 。 这 里 需要 注意 的 是 ， 如 果 把 innodb_old_blocks time 的 值 设置 为 
0， 那 么 每 次 访问 一 个 页 面 时 ， 束 会 把 该 页 面 放 到 young 区 域 的 头 部 。 
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综 上 所 述 ， 正 是 因为 将 LRU 链表 划分 为 young 区 域 和 old 区 域 这 两 个 部 分 ， 又 添加 了 
innodb_old_blocks_time 系统 变量 ， 预 读 机 制 和 全 表 扫 描 造 成 的 Buffer Pool 命中 率 降 低 的 问题 
才 得 到 了 过 制 一 一 因为 用 不 到 的 预 读 页 面 以 及 全 表 扫 描 的 页 面 都 只 会 放 到 old 区 域 ， 而 不 影响 
young 区 域 中 的 缓冲 页 。 


4. 更 进一步 优化 LRU 链表 

LRU 链表 这 就 说 完了 么 ? 没有 ， 早 着 呢 ! 对 于 young 区 域 的 缓冲 页 来 说 ， 我 们 每 次 访问 
一 个 缓冲 页 就 要 把 它 移动 到 LRU 链表 的 头 部 ， 这 样 开销 是 不 是 太 大 了 。 毕 竟 在 young 区 域 的 
缓冲 页 都 是 热点 数据 ， 也 就 是 可 能 会 经 常 访问 。 这 样 频繁 地 对 LRU 链表 执行 节点 移动 操作 是 
不 是 不 太 好 啊 ? 是 的 ， 为 了 解决 这 个 问题 ， 其 实 我 们 还 可 以 提出 一 些 优化 策略 ， 比 如 只 有 被 访 
问 的 缓冲 页 位 于 young 区 域 1/4 的 后 面 时 ， 才 会 被 移动 到 LRU 链表 头 部 。 这 样 就 可 以 降低 调 
整 LRU 链表 的 频率 ， 从 而 提升 性 能 (也 就 是 说 ， 如 果 某 个 缓冲 页 对 应 的 节点 在 young 区 域 的 
1/4 中 ， 再 次 访问 该 缓冲 页 时 也 不 会 将 其 移动 到 LRU 链表 头 部 )。 


前 文 介绍 随机 预 读 时 普 提 到 ， 如 果 Buffer Pool 中 有 某 个 区 的 13 个 连续 页 面 就 会 甬 
发 随机 预 读 . 其 实 这 是 不 严谨 的 ， 其 实 还 要 求 这 13 个 页 面 是 非常 基 的 页 而。 所 谓 的 “ 非 
小 贴 士 ” 常 热 了 ”， 指 的 是 这 些 页 面 在 整个 young 区 域 的 头 1/4 处 . / 


、l4 
ra 
: 

pl 


还 有 没有 针对 LRU 链表 的 其 他 优化 措施 呢 ? 当然 有 啊 , .相关 内 容 足 够 咱们 写 篇 论文 甚至 
写本 书 了 。 受 限于 篇 幅 以 及 考虑 到 大 家 的 阅读 体验 ， 这 里 就 适可而止 了 。 大 家 如 果 想 了 解 更 
多 的 优化 知识 ， 可 以 自己 去 阅读 源码 或 者 更 多 关于 LRU 链表 的 知识 了 。 但 是 无 论 怎么 优化 ， 
干 万 列 息 了 我 们 的 初 心 : 尽量 高 效 地 提高 Buffer Pool 命中 率 。 


只 要 从 磁盘 中 加 载 一 一 个 页 面 到 Buffer Pool 的 一 一 个 缓冲 页 中 ， 该 缓冲 页 对 应 的 
全 : 控制 块 就 会 作为 一 个 节点 加 入 到 LRU 链表 中 ， 这 样 一 来 ， 该 缓冲 页 对 应 的 控制 块 
小 际 十 也 就 不 在 free 链表 中 了 . 达 寺 8 锯 表 和 的 节点 (控制 当 》 肯定 电 生 了 RU 链表 中 的 
节点 。 


17.2.7 其 他 的 一 些 链表 


为 了 更 好 地 管理 Buffer Pool 中 的 缓冲 页 ， 除 了 前 面 提 到 的 这 些 措 施 ， 设 计 InnoDB 的 大 
叔 们 还 引进 了 其 他 一 些 链表 。 比 如 用 于 管理 解压 页 的 unzip LRU 链表 ， 用 于 管理 压缩 页 的 zip 
clean 链表 ，zip free 数组 中 每 一 个 元 素 都 代表 一 个 链表 ， 它 们 组 成 伙伴 系统 来 为 压缩 页 提供 内 
存 空间 等 。 反 正 是 为 了 更 好 地 管理 这 个 Buffer Pool 而 引入 了 各 种 链表 或 其 他 数据 结构 ， 具 体 
的 使 用 方式 我 们 也 不 哪 味 了 。 大 家 如 果 有 兴趣 深究 ， 可 以 再 去 找 一 些 更 深 的 图 书 或 者 直接 阅读 
源码 。 


2 -二 三 我 们 压根 儿 也 没有 深入 嘴巴 过 InnoDB 中 的 压缩 页 ， 上 面 这 些 链表 也 只 是 为 了 内 容 


~ 的 完整 性 而 顺便 提 一 下 . 加 办 大 家 看 不 恒 也 千 方 不 要 村 闪 。 网 为 表 民 很 儿 就 没 打算 介绍 
小 贴 士 它们。 
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17.2.8 刷新 脏 页 到 磁盘 


后 台 有 专门 的 线程 负责 每 隔 一 段 时 间 就 把 脏 页 刷新 到 磁盘 ， 这 样 可 以 不 影响 用 户 线程 处 理 
正 第 的 请 求 。 刷 新 方式 主要 有 下 面 两 种 。 


e ”从 LRU 链表 的 冷 数 据 中 刷新 一 部 分 页 面 到 磁盘 。 
后 全 线程 会 定时 从 LRU 链表 尾部 开始 扫描 一 些 页 面 ， 扫描 的 页 面 数 量 可 以 通过 系统 变量 


innodb _lru_scan_depth 来 指定 。 如 果 在 LRU 链表 中 发 现 脏 页 ， 则 把 它们 刷新 到 磁盘 。 这 种 刷 
新 页 面 的 方式 称 为 BUF FLUSH LRU。 





~ 


海 : 一 个 缓冲 页 对 应 的 控制 块 占用 了 很 大 的 存储 空间 其 中 就 会 存储 诸如 该 缓冲 页 是 否 


被 修改 的 信息 ， i LRU 链表 时 ， 只 从 从 地 获取 到 亲 个 缀 站 页 是 下 是 用 页 
| 小 贴 士 ”的 信息 : : 


e 从 flush 链表 中 刷新 一 部 分 页 面 到 磁盘 。 


后 台 线 程 也 会 定时 从 flush 链表 中 刷新 一 部 分 页 面 到 磁盘 ， 刷新 的 速率 取决 于 当时 系统 是 
个 票 忙 。 这 种 刷新 页 面 的 方式 称 为 BUF FLUSH LIST。 


wa 为 了 更 高 效 地 执行 脏 页 剧 盘 操作 ， 设计 InnoDB 的 大 叔 还 设计 了 许多 系统 变量 来 控 
@. 制 刷 新 的 过 程 ， 比 如 innodb _ flush_neighbors、innodb io _capacity 1 max、 innodb _adaptive_ 


十 flushing、innodb_max_dirty_pages_pet 等 . 到 于 这 册 厌 统 灾 量 是 如 何 挫 制 刷 胡 行 为 的 ， 
这 并 不 是 本 书 的 内 容 ， 大 家 可 以 查阅 官方 文档 ， 


有 时 ， 后 台 线程 刷新 脏 页 的 进度 比较 慢 ， 导致 用 户 线程 在 准备 加 载 一 个 磁盘 页 到 Buffer 
Pool 中 时 没有 可 用 的 缓冲 页 。 这 时 就 会 尝试 查看 LRU 链表 尾部 ， 看 是 否 存在 可 以 直接 释放 掉 
的 未 修改 缓冲 页 。 如 果 没 有 ， 则 不 得 不 将 LRU 链表 尾部 的 一 个 脏 页 同步 刷新 到 磁盘 与 磁盘 
交互 是 很 慢 的 ， 这 会 降低 处 理 用 户 请 求 的 速度 )。 这 种 将 单个 页 面 刷新 到 磁盘 中 的 刷新 方式 称 
为 BUF FLUSH _ SINGLE PAGE。 

当然 ， 在 系统 特别 繁忙 时 ， 也 可 能 出 现 用 户 线程 从 flush 链表 中 刷新 脏 页 的 情况 。 很 显然 ， 在 
处 理 用 户 请 求 的 过 程 中 去 刷新 脏 页 是 一 种 严重 降低 处 理 速度 的 行为 (毕竟 磁盘 的 速度 太 慢 了 )。 这 
属于 一 种 迫不得已 的 情况 ， 后 文 在 啼 归 redo 日 志 的 checkpoint 时 ， 再 进一步 解释 这 一 点 


AAA 六 


17.2.9 多 个 Buffer Pool 实例 


前 文 说 过 ，Buffer Pool 的 本 质 是 InnoDB 向 操作 系统 申请 的 一 块 连续 的 内 存 空 间 。 在 多 线 
程 环境 下 ， 访 问 Buffer Pool 中 的 各 种 链表 都 需要 加 锁 处 理 。 在 Buffer Pool 特别 大 并 且 多 线程 
并 发 访问 量 特别 高 的 情况 下 ， 单 一 的 Buffer Pool 可 能 会 影响 请 求 的 处 理 速度 。 所 以 在 Buffer 
Pool 特别 大 时 ， 可 以 把 它们 拆 分 成 若干 个 小 的 Buffer Pool， 每 个 Buffer Pool 都 称 为 一 个 实例 。 
它们 都 是 独立 的 一 一 独立 地 申请 内 存 空 间 、 独 立地 管理 各 种 链表 .……- 在 多 线程 并 发 访问 时 并 
不 会 相互 影响 ， 从 而 提高 了 并 发 处 理 能 力 。 我 们 可 以 在 服务 器 启动 的 时 候 通过 设置 innodb 
buffer_ pool instances 的 值 来 修改 Buffer Pool -i 比如 下 面 这 样 : 
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[server] 
innodb buffer pool instances = 2 


这 表明 我 们 要 创建 2 个 Buffer Pool 实例 ， 示 意图 如 图 17-5 所 示 。 





图 17-5 ”Buffer Pool 实例 示意 图 


洽 : 简便 起 见 ， 这 里 只 画 出 了 各 个 链表 的 基 节 点 ， 大 家 应 该 清 直 这 站 钴 的 入 其 实 就 
小 贴 士 ”是 每 个 绥 冲 页 对 应 的 控制 决 二 


那么 ， 每 个 Buffer Pool 实例 实际 占 多 少 内 存 空 间 呢 ? 其 实 是 使 用 下 面 这 个 公式 算出 来 的 ; 
innodb buffer pool size =innodb buffer pool instances 


也 就 是 Buffer Pool 的 总 大 小 除 以 实例 的 个 数 ， 结 果 就 是 每 个 Buffer Pool 实例 占用 的 大 小 。 

不 过 ， 并 不 是 说 Buffer Pool 实例 创建 得 越 多 越 好 ， 分 别管 理 各 个 Buffer Pool 也 是 需要 性 
能 开销 的 。 设 计 InnoDB 的 大 叔 规定 : 当 innodb buffer pool size 的 值 小 于 1GB 时 ， 设 置 多 个 
实例 是 无 效 的 ，InnoDB 会 默认 把 innodb buffer pool instances 的 值 修改 为 1。 


17.2.10 innodb_ buffer_pool_chunk Size 


在 MySQL 5.7.5 版 本 之 前 ， 只 能 在 服务 器 启动 时 通过 配置 innodb buffer pool size 启动 选 
项 来 调整 Buffer Pool 的 大 小 ; 在 服务 器 运行 过 程 中 是 不 允许 调整 该 值 的 。 不 过 设计 MySQL 的 
大 叔 在 MySQL 5.7.5 以 及 之 后 的 版 本 中 ， 支 持 了 在 服务 器 运行 过 程 中 调整 Buffer Pool 大 小 的 
功能 。 但 是 有 一 个 问题 ， 就 是 每 次 重新 调整 Buffer Pool 的 大 小 时 ， 都 需要 重新 向 操作 系统 申 
请 一 块 连续 的 内 存 空间 ， 然 后 将 旧 Buffer Pool 中 的 内 容 复 制 到 这 一 块 新 空间 ; 这 是 极其 耗 时 
的 。 所 以 ， 设 计 MySQL 的 大 叔 决 定 不 再 一 次 性 为 某 个 Buffer Pool 实例 向 操作 系统 申请 一 大 片 
连续 的 内 存 空间 ， 而 是 以 一 个 chunk 为 单位 向 操作 系统 申请 空间 。 也 就 是 说 ， 一 个 Buffer Pool 
实例 其 实 是 由 若干 个 chunk 组 成 的 。 一 个 chunk 就 代表 一 片 连续 的 内 存 空间 ， 里 面包 含 了 若干 


= pp 


缓冲 页 与 其 对 应 的 控制 块 ， 如 图 17-6 所 示 。 
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Buffer Pool Instance 0 


Buffer Pool Instance 1 








”其 他 各 种 链表 : … 


17-6 ”chunk 示意 图 


在 图 17-6 中 ，Buffer Pool 就 是 由 2 个 实例 组 成 的 ， 每 个 实例 中 又 包含 2 个 chunk。 

正 是 因为 发 明了 chunk 的 概念 ， 我 们 在 服务 器 运行 期 间 调 整 Buffer Pool 的 大 小 时 ， 就 可 
以 以 chunk 为 单位 来 增加 或 者 删除 内 存 空间 ， 而 不 需要 重新 向 操作 系统 申请 一 片 大 的 内 存 ， 然 
后 进行 缓冲 页 的 复制 。 这 个 chunk 的 大 小 是 在 启动 MySQL 服务 器 时 ， 通 过 innodb buffer 
pool chunk size 启动 选项 指定 的 ， 默 认 值 是 134,217,728， 也 就 是 128MB。 不 过 需要 注意 的 是 ， 
innodb buffer pool chunk size 的 值 只 能 在 服务 器 启动 时 指定 ， 在 服务 器 运行 过 程 中 不 可 以 修改 。 


为 什么 不 允许 在 服务 器 的 运行 过 程 中 修改 innodb buffer pool chunk size 的 值 呢 ? 
-还 不 是 因为 innodb buffet pool chunk size 的 值 代表 InnoDB 向 操作 系统 申请 的 一 片 连续 
9 的 内 存 空间 的 大 小 ， 如 果 在 服务 器 运行 过 程 中 修改 了 该 值 ， 就 意味 着 需要 重新 向 操作 系 
小 贴 士 “ 统 申请 连续 的 内 存 空 间 ， 并 且 将 原先 的 缓冲 页 和 它们 对 应 的 控制 块 复制 到 这 个 新 的 内 存 
空间 中 。 这 是 十 分 耗 时 的 操作 |! 





另外 ， 这 个 innodb buffer pool chunk size 的 值 并 不 包含 缓冲 页 对 应 的 控制 块 的 内 存 空间 
大 小 ， 所 以 实际 上 InnoDB 向 操作 系统 申请 连续 内 存 空 间 时 ， 每 个 chunk 的 大 小 要 比 innodb_ 
buffer pool chunk size 的 值 大 一 些 (在 DEBUG 模式 下 约 5%)。 


17.2.11 配置 Buffer Pool 时 的 注意 事项 


在 配置 Buffer Pool 时 ， 需 要 注意 下 面 这 些 事 项 。 
@ innodb buffer pool size 必须 是 innodb_buffer pool chunk size x innodb buffer pool _ 
instances 的 倍数 (主要 是 想 保证 每 一 个 Buffer Pool 实例 中 包含 的 chunk 数量 相同 )。 
假设 我 们 指定 的 innodb_buffer pool chunk size 的 值 是 128MB，innodb buffer pool instances 
的 值 是 16， 那 么 这 两 个 值 的 乘积 就 是 2GB， 也 就 是 说 innodb_buffer pool size 的 值 必须 是 2GB 
或 者 2GB 的 整数 倍 。 比 如 ， 我 们 在 启动 MySQL 服务 器 是 按照 下 面 这 样 来 指定 启动 选项 的 : 








we 
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mysqld --innodb-buffer-pool-size=8G --innodb-buffer-pool-~instances=16 


默认 的 innodb buffer pool chunk size 值 是 128MB， 指 定 的 innodb buffer pool instances 


的 值 是 16， 所 以 innodb_buffer pool size 的 值 必须 是 2GB 或 者 2GB 的 整数 倍 。 在 上 面 这 个 例 
子 中 ， 指 定 的 innodb buffer pool size 的 值 是 8GB， 符 合 规 定 ， 所 以 在 服务 器 启动 完成 之 后 ， 
可 以 看 到 该 变量 的 值 就 是 我 们 指定 的 8GB (8,589,934,592 字 节 ): 


mysql> SHOW VARIABLES LIKE '‘'innodb buffer pool size'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 
| innodb buffer Pool size | 8589934592 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


如 果 我 们 指定 的 innodb buffer pool size 大 于 2GB 但 不 是 2GB 的 整数 倍 ， 那 么 服务 器 会 


自动 把 innodb buffer pool size 的 值 调整 为 2GB 的 整数 倍 。 比 如 我 们 在 启动 服务 器 时 指定 的 
innodb buffer pool size 的 值 是 9GB : 


mysqld --innodb-buffer-pool-size=9G --innodb-buffer-pool-instances=16 
服务 器 会 自动 把 innodb_buffer pool size 的 值 调整 为 10GB〔10,737,418,240 字 节 )， 不 信 你 看 : 


mysql> SHOW VARIABLES LIKE “innodb buffer Pool size'; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Value | 
二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| innodb buffer pool size | 10737418240 | 
+- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.01 sec) 


e 在 服务 器 启动 时 ， 如 果 innodb buffer pool chunk size x innodb buffer pool instances 
的 值 已 经 大 于 innodb buffer pool size 的 值 ， 那 么 innodb buffer pool chunk size 的 值 
会 被 服务 器 自动 设置 为 innodb buffer pool size =- innodb buffer pool instances 的 值 。 

比如 ， 我 们 在 启动 服务 器 时 指定 的 innodb buffer pool size 的 值 为 2GB，innodb buffer 


pool instances 的 值 为 16，innodb buffer pool chunk 'size 的 值 为 256MB : 


mysqld --innodb-buffer-pool-size=2G --innodb-buffer-pool-~instances=16 --innodb-buffer-pool- 
chunk-size=256M 


由 于 256MB x 16 = 4GB， 而 4GB>2GB， 所 以 innodb_buffer pool chunk size 的 值 会 被 服 


务 器 改写 为 innodb buffer pool size + innodb buffer pool instances 的 值 ， 即 2GB = 16=128MB 
(134,217,728 字 节 ) ， 不 信 你 看 : 


mysql> SHOW VARIABLES LIKE 'innodb buffer pool size'; 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 加 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 1 
| innodb _ buffer pool _ size | 2147483648 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 - 





A 
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1 row in set (0.01 sec) 


mysql> SHOW VARIABLES LIKE "innodb buffer pool chunk size'; 


一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 十 
| Variable name | Value | 
人 + 一 一 一 一 一 一 一 一 一 一 一 + 
| innodb buffer pool chunk size | 134217728 | 
一 一 全 十 一 一 一 一 一 一 一 一 一 一 一 1 


1 row in set (0.00 sec) 


Buffer Pool 中 的 缓冲 页 除了 用 来 缓存 磁盘 中 的 页 面 以 外 ， 还 可 以 存储 目 适应 蛤 希 索 引 的 信 
这 些 内 容 就 不 再 详细 踪 归 了 。 


mil 


17.2.12 查看 Buffer Pool 的 状态 信息 


设计 MySQL 的 大 叔 贴 心地 给 我 们 提供 了 SHOW ENGINE INNODB STATUS 语句 来 查看 
InnoDB 存储 引擎 运行 过 程 中 的 一 些 状态 信息 ， 其 中 就 包括 Buffer Pool 的 信息 (为 了 突出 重点 ， 
这 里 只 把 输出 中 与 Buffer Pool 相关 的 部 分 提取 了 出 来 )。 


mysql> SHOW ENGINE INNODB STATUS\G 


(… 省 略 前 边 的 许多 状态 ) 


Total memory allocated 13218349056; 

Dictionary memory allocated 4014231 

Buffer pool size 786432 

Free buffers 8174 

Database pages 710576 

Old database pages 262143 

Modified db pages 124941 

Pending reads 0 

Pending writes: LRU 0, flush list 0, single page 0 

Pages made young 6195930012, not young 78247510485 

108.18 youngs/s, 226.15 non-youngs/s 

Pages read 2748866728, created 29217873, written 4845680877 
160.77 reads/s, 3.80 creates/s, 190.16 writes/s 

Buffer pool hit rate 956 / 1000, young-making rate 30 / 1000 not 605 / 1000 


Pages read ahead 0.00/s, evicted without access 0.00/s, Random read ahead 0.00/s 
LRU len: 710576, unzip_LRU len: 118 


I/O sum[134264] :cur[144], unzip sum[16] :cur[0] 


我 们 来 详细 看 一 下 里 面 的 每 个 值 都 代表 什么 意思 。 


e Total memory allocated : 代表 Buffer Pool 向 操作 系统 申请 的 连续 内 存 空间 大 小 ， 包括 
全 部 控制 块 、 缓 冲 页 ， 以 及 碎片 的 大 小 。 

® Dictionary memory allocated : 为 数据 字典 信息 分 配 的 内 存 空间 大 小 。 注 意 ， 这 个 内 存 
空间 和 Buffer Pool 没有 关系 ， 不 包含 在 Total memory allocated 中 。 

。 Bufier pool size : 代表 该 Buffer Pool 可 以 容纳 多 少 缓冲 页 。 注 意 ， 单位 是 页 ! 
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Free buffers : 代表 当前 Buffer Pool 还 有 多 少 空闲 缓冲 页 ， 也 就 是 free 链表 中 还 有 多 少 个 节点 。 
Database pages: 代表 LRU 链表 中 页 的 数量 ， 它 包含 young 和 old 两 个 区 域 的 节点 数量 。 
Old database pages : 代表 LRU 链表 old 区 域 的 节点 数量 。 

Modified db pages : 代表 脏 页 数量 , -也 就 是 fush 链表 中 节点 的 数量 。 

Pending reads : 等 待 从 磁盘 加 载 到 Buffer Pool 中 的 页 面 数 量 。 

当 准 备 从 磁盘 中 加 载 某 个 页 面 时 ， 会 先 在 Buffer Pool 中 为 这 个 页 面 分 配 一 个 缓冲 页 以 
及 对 应 的 控制 块 ， 然 后 把 这 个 控制 块 添加 到 LRU 的 old 区 域 的 头 部 。 但 是 此 时 真正 的 
磁盘 页 并 没有 加 载 进来 ， 因 此 Pending reads 的 值 会 加 1。 

Pending writes LRU : 即将 从 LRU 链表 中 刷新 到 磁盘 中 的 页 面 数量 。 

Pending writes flush list : 即将 从 flush 链表 中 刷新 到 磁盘 中 的 页 面 数量 。 

Pending writes single page : 即将 以 单个 页 面 的 形式 刷新 到 磁盘 中 的 页 面 数量 。 

Pages made young: 代表 LRU 链 表 中 曾经 从 old 区域 移 动 到 young 区 域 头 部 的 节点 数量 。 
这 里 需要 注意 ， 一 个 节点 每 次 只 有 从 old 区 域 移动 到 young 区 域 头 部 时 才 会 将 Pages 
made young 的 值 加 1。 也 就 是 说 ， 如 果 该 节点 本 来 就 在 young 区 域 ， 由 于 它 符 合 在 
young 区 域 1/4 后 面 的 要 求 ， 下 一 次 访问 这 个 页 面 时 也 会 将 它 移动 到 young 区 域 头 部 ， 
但 这 个 过 程 并 不 会 导致 Pages made young 的 值 加 1。 

Page made not young : 在 将 innodb old blocks time 的 值 设 置 为 大 于 0 时 ， 首 次 访问 或 
者 后 续 访问 某 个 处 于 old 区 域 的 节点 时 ， 由 于 不 符合 时 间 间 隔 的 限制 而 不 能 将 其 移动 
到 young 区 域 头 部 中 ，Page made not young 的 值 会 加 1。 

这 里 需要 注意 ， 对 于 处 于 young 区 域 的 节点 ， 如 果 因 为 它 在 young 区 域 的 前 1/4 处 而 
没有 被 移动 到 young 区 域 头 部 ，Page made not young 的 值 不 会 加 1 。 

youngs/s : 代表 每 秒 从 old 区 域 移动 到 young 区 域 头 部 的 节点 数量 。 

non-youngs/s : 代表 每 秒 由 于 不 满足 时 间 限 制 而 不 能 从 old 区 域 移动 到 young 区 域 头 部 
的 节点 数量 。 

Pages read、created、written: 代表 读 取 、 创 建 、 写 入 了 多 少 页 ， 后 边 跟着 读 取 、 创 建 、 
写 入 的 速率 。 

Buffer pool hit rate : 表示 在 过 去 某 段 时 间 内 ， 平 均 访 问 1000 次 页 面 时 ， 该 页 面 有 多 少 
次 已 经 被 缓存 到 Buffer Pool 中 。 

young-making rate : 表示 在 过 去 某 段 时 间 内 ， 平 均 访 问 1000 次 页 面 时 ， 有 多 少 次 访问 
使 页 面 移 动 到 young 区 域 的 头 部 。 

需要 注意 的 一 点 是 ， 这 里 统计 的 将 页 面 移动 到 young 区 域 的 头 部 次 数 不 仅 仅 包含 从 old 
区 域 移动 到 young 区 域 头 部 的 次 数 ， 还 包含 从 young 区 域 移动 到 young 区 域 头 部 的 次 
数 〈 访 问 某 个 young 区 域 的 节点 时 ， 只 要 该 节点 在 young 区 域 的 1/4 处 后 面 ， 就 会 把 
它 移动 到 young 区 域 的 头 部 )。 

not (young-making rate) : 表示 在 过 去 某 段 时 间 内 ， 平 均 访 问 1000 次 页 面 时 ， 有 多 少 次 
访问 没有 使 页 面 移动 到 young 区 域 的 头 部 。 

需要 注意 的 一 点 是 ， 这 里 统计 的 没有 将 页 面 移动 到 young 区 域 的 头 部 次 数 不 仅 仅 包含 
因 设 置 了 innodb old blocks time 系统 变量 而 导致 访问 了 old 区 域 中 的 节点 ， 但 没 把 它们 
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移动 到 young 区 域 的 次 数 ; 还 包含 因为 该 节点 在 young 区 域 的 前 1/4 处 而 没有 被 移动 到 
young 区 域 头 部 的 次 数 。 


e LRU len : 代表 LRU 链表 中 节点 的 数量 。 

e unzip LRU : 代表 unzip LRU 链表 中 节点 的 数量 《由 于 我 们 没有 具体 嘴 胃 过 这 个 链表 ， 
现在 可 以 忽略 它 的 值 )。 

IO sum : 最 近 50s 读 取 磁盘 页 的 总 数 。 

IO cur : 现在 正在 读 取 的 磁盘 页 数量 。 

IO unzip sum : 最 近 50s 解压 的 页 面 数 量 。 

IO unzip cur : 正在 解压 的 页 面 数 量 。 


17.3 总 结 


磁盘 太 慢 ， 用 内 存 作为 缓冲 区 很 有 必要 。 

Buffer Pool 本 质 上 是 InnoDB 向 操作 系统 申请 的 一 段 连续 的 内 存 空 间 。 可 以 通过 innodb 
buffer pool size 来 调整 它 的 大 小 。 

Buffer Pool 向 操作 系统 申请 的 连续 内 存 空间 由 控制 块 和 缓冲 页 组 成 ， 每 个 控制 块 和 缓冲 页 
部 是 一 一 对 应 的 。 在 填充 了 足够 多 的 控制 块 和 缓冲 页 的 组 合 后 ，Buffer Pool 中 剩余 的 空间 可 能 
个 足以 填充 一 组 控制 块 和 缓冲 页 ， 从 而 导致 这 部 分 空间 无 法 使 用 。 这 部 分 空间 也 称 为 碎片 。 

InnoDB 使 用 了 许多 链表 来 管理 Buffer Pool。 

在 free 链表 中 ， 每 一 个 节点 都 代表 一 个 空闲 的 缓冲 页 ， 在 将 磁盘 中 的 页 加 载 到 Buffer Pool 
中 时 ， 会 从 free 链表 中 寻找 空闲 的 缓冲 页 。 

为 了 快速 定位 某 个 页 是 否 被 加 载 到 Buffer Pool 中 ， 可 使 用 表 空 间 号 + 页 号 作为 key， 缓 冲 
页 控制 块 的 地 址 作为 value 的 形式 来 建立 哈 希 表 。 

企 Buffer Pool 中 ， 被 修改 的 页 称 为 脏 页 。 脏 页 并 不 是 立即 刷新 的 ， 而 是 加 入 到 flush 链表 
中 ， 待 之 后 的 某 个 时 刻 再 刷新 到 磁盘 中 。 

LRU 链表 分 为 young 区 域 和 old 区 域 ， 可 以 通过 innodb old _blocks_pct 来 调节 old 区 域 
所 误 的 比例 。 首 次 从 磁盘 加 载 到 Buffer Pool 中 的 页 会 放 到 old 区 域 的 头 部 ， 在 innodb _old_ 
blocks_time 间隔 时 间 内 访问 该 页 时 ， 不 会 把 它 移动 到 young 区 域 头 部 。 在 Buffer Pool 中 没有 
可 用 的 空 朵 缓冲 页 时 ， 会 首先 淘汰 掉 old 区 域 中 的 一 些 页 。 

可 以 通过 指定 innodb_ buffer pool instances 来 控制 Buffer Pool 实例 的 个 数 。 每 个 Buffer 
Pool 实例 都 有 各 自 独立 的 链表 ， 互 不 干扰 。 

目 MySQL 5.7.5 版 本 之 后 ， 可 以 在 服务 器 运行 过 程 中 调整 Buffer Pool 的 大 小 。 每 个 Buffer 
Pool 实例 由 若干 个 chunk 组 成 ， 每 个 chunk 的 大 小 可 以 在 服务 器 启动 时 通过 启 动 选 项 调整 。 

可 以 用 下 面 的 命令 来 查看 Buffer Pool 的 状态 信息 : 


SHOW ENGINE INNODB STATUS\G 
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18.1 事务 的 起 源 


对 于 大 部 分 程序 员 来 说 ， 他 们 的 任务 就 是 把 现实 世界 的 业务 场景 映射 到 数据 库 世界 中 。 比 
如 ， 银 行 会 为 了 存储 人 们 的 账户 信息 而 建立 一 个 account 表 : 
CREATE TABLE account ( 
id INT NOT NULL AUTO INCREMENT COMMENT ' 自 增 id'， 
name VARCHAR(100) COMMENT ' 客 户 名 称 '， 
balance INT COMMENT (余额 '， 


PRIMARY KEY (id) 
) Engine=InnoDB CHARSET=utf8; 


狗 哥 和 猎人 区 是 一 对 好 朋友 。 他 们 到 银行 各 自 开 设 了 一 个 账户 ， 这 样 一 来 ， 俩 人 在 现实 世界 
中 拥有 的 资产 就 会 体现 在 数据 库 世 界 的 account 表 中 。 比 如 ， 现 在 狗 哥 有 11 元， 猫 葡 只 有 2 元 ， 
那么 现实 中 的 这 个 情况 映射 到 数据 库 的 account 表 就 是 下 面 这 样 : 


+ 一 一 一 一 一 一 一 一 一 人 
| balance | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 二 
| 
| 
+ 


在 某 个 特定 的 时 刻 ， 狗 哥 、 猫 秆 这 些 家 伙 在 银行 所 拥有 的 资产 是 一 个 特定 的 值 。 这 些 特定 
的 值 也 可 以 被 描述 为 账户 在 这 个 特定 的 时 刻 在 现实 世界 中 的 一 个 状态 。 随 着 时 间 的 流逝 ， 狗 
哥 和 猫 爷 可 能 陆续 问 银 行 账户 中 存 钱 、 取 钱 或 者 向 别人 转账 ， 他 们 账户 中 的 余额 也 因此 发 生变 
动 ， 每 一 个 操作 都 相当 于 现实 世界 中 账户 的 一 次 状态 转换 。 

数据 库 世 界 作为 现实 世界 的 一 个 映射 ， 自 然 也 要 进行 相应 的 变动 。 不 变 不 知道 ， 一 变 吓 一 
跳 。 现 实 世 界 中 一 些 看 似 简单 的 状态 转换 ， 映 射 到 数据 库 世界 却 不 是 那么 容易 。 

比如 ， 有 一 次 猎 苞 着 急用 钱 ， 急 忙 打 电 话 给 狗 哥 借 10 块 钱 。 现 实 世 界 中 的 狗 哥 走向 银行 
的 ATM 机 ， 输 入 了 猎人 节 的 账号 以 及 10 元 的 转账 金额 ， 然 后 按 下 确认 键 之 后 就 拔 卡 走 人 了 。 
对 于 数据 库 世 界 来 说 ， 这 相当 于 执行 了 下 面 这 两 条 语句 : 


UPDATE account SET balance = balance - 10 WHERE id = 1;， 
UPDATE account SET balance = balance + 10 WHERE id = 2: 


但 是 这 里 面 有 个 问题 。 如 果 上 述 两 条 语句 只 执行 了 一 条 时 ， 服 务 器 忽然 断 电 了 ， 这 该 咱 
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办 ? 把 狗 哥 的 钱 扣 了 ， 但 是 没 给 猫 爷 转 过 去 ， 那 猫 节 还 是 逃脱 不 了 着 急用 钱 的 容 境 。 即 使 对 于 
单独 的 一 条 语句 ， 上 一 章 在 啼 明 Buffer Pool 时 也 说 过 ， 在 对 某 个 页 面 进行 读 写 访问 时 ， 都 会 
先 把 这 个 页 面 加 载 到 Buffer Pool 中 之 后 如 果 修改 了 某 个 页 面 ， 也 不 会 立即 把 修改 刷新 到 磁 
盘 ， 而 只 是 把 这 个 修改 后 的 页 面 添加 到 Buffer Pool 的 flush 链表 中 ， 在 之 后 的 某 个 时 间 点 才 会 
刷新 到 磁盘 。 如 果 在 将 修改 过 的 页 刷新 到 磁盘 之 前 系统 崩溃 了 ， 猫 爷 岂 不 是 依然 陷 在 用 钱 窘 
境 中 ? 

怎么 才能 让 可 怜 的 猫 爷 摆 脱 窘境 呢 ? 其 实 再 仔细 想 想 ， 我 们 只 是 想 让 某 些 数据 库 操 作 符 合 


现实 世界 中 状态 转换 的 规则 而 已 ， 设计 数据 库 的 大 叔 仔细 盘算 了 盘算 ， 现 实 世界 中 状态 转换 的 
规则 有 好 几 条 ， 我 们 慢 慢 道 来 。 


18.1.1 原子 性 ( Atomicity ) 


在 现实 世界 中 ， 转 账 操 作 是 一 个 不 可 分 割 的 操作 。 也 就 是 说 ， 要 么 压根 儿 就 没 转 ， 要 么 转 
账 成 功 ;不 能 存在 中 间 的 状态 ， 也 就 是 转 了 一 半 的 这 种 情况 。 设计 数据 库 的 大 叔 把 这 种 “要 么 
全 做 ， 要 么 全 不 做 ”的 规则 称 为 原子 性 。 但 是 ， 现实 世界 中 一 个 不 可 分 割 的 操作 却 可 能 对 应 着 
数据 库 世 界 中 若干 条 不 同 的 操作 ， 数据 库 中 的 一 条 操作 也 可 能 被 分 解 成 若干 个 步骤 (比如 先 修 
改 缓冲 页 ， 之 后 再 刷新 到 磁盘 等 )。 最 要 命 的 是 ， 在 任何 一 个 可 能 的 时 间 点 都 可 能 发 生意 想 不 
到 的 错误 《可 能 是 数据 库 本 身 的 错误 ， 也 可 能 是 操作 系统 错误 ， 甚至 还 可 能 是 直接 断 电 之 类 的 
意外 ) 而 使 操作 执行 不 下 去 。 为 了 保证 数据 库 世 界 中 某 些 操作 的 原子 性 ， 设计 数据 库 的 大 叔 需 
要 化 费 一 些 心思 来 保证 ， 如 果 在 执行 操作 的 过 程 中 发 生 了 错误 ， 束 把 已 经 执行 的 操作 恢复 成 没 
执行 之 前 的 样子 。 这 也 是 后 面 章节 将 要 和 仔细 啼 四 的 内 容 。 


18.1.2 隔离 性 (lsolation ) 


在 现实 世界 中 ， 两 次 状态 转换 应 该 是 互 不 影响 的 。 比 如 ， 狗 哥 向 猫 苑 同时 进行 了 两 次 
金额 为 5 元 的 转账 〈 假 设 可 以 在 两 个 ATM 机 上 同时 操作 )。 那 么 最 后 狗 哥 的 账户 里 肯定 会 
少 10 元 ， 而 猫 爷 的 账户 里 肯定 多 了 10 元 。 但 是 到 对 应 的 数据 库 世 界 中 ， 事 情 又 变 得 复杂 
了 一 泽 。 为 了 简化 问题 ， 我 们 粗略 地 假设 狗 哥 向 猫 爷 转账 5 元 的 过 程 是 由 下 面 这 几 个 步骤 组 
成 的 。 
. 读 取 狗 哥 账户 的 余额 到 变量 A 中 ; 简写 为 read(A)。 
.将 狗 哥 账户 的 余额 减 去 转账 金额 ;简写 为 A=A- 5。 
: 将 狗 哥 账户 修改 过 的 余额 写 到 磁盘 中 ;， 简 写 为 write(A)。 
. 读 取 猫 爷 账户 的 余额 到 变量 B ， 简 写 为 read(B)。 
.将 猫 爷 账户 的 余额 加 上 转账 金额 ， 简 写 为 B=B + 5。 
将 猫 爷 账户 修改 过 的 余额 写 到 磁盘 中 ， 简 写 为 write(B)。 

我 们 将 狗 哥 向 猫 爷 同时 进行 的 两 次 转账 操作 分 别称 为 TI 和 T2。 在 现实 世界 中 TI 和 T2 
应 该 是 没有 关系 的 ， 可 以 先 执行 完 TI， 再 执行 T2;， 或 者 先 执行 完 T2， 再 执行 T1。 对 应 的 数 
据 库 操作 如 图 18-1 所 示 。 


OO WwW WD = 
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先 执行 T1 ， 再 执行 T2 的 情况 : 先 执行 T2， 再 执行 T1 的 情况 : 





图 18-1 转账 操作 对 应 的 数据 库 操作 
但 是 很 不 幸 ， 在 真实 的 数据 库 中 ，T1 和 T2 的 操作 可 能 交替 执行 ， 如 图 18-2 所 示 。 


TI 和 T2 交 等 执行 的 情况 : 


此 时 A 的 值 为 11 
此 时 A 的 值 为 11 


此 时 A 的 值 为 6 
此 时 B 的 值 为 2 


此 时 B 的 值 为 7 


此 时 A 的 值 为 6 
此 时 B 的 值 为 7 


此 时 B 的 值 为 12 





图 18-2 真实 的 数据 库 中 Tl 和 T2 的 操作 


如 果 按 照 图 18-2 中 的 执行 顺序 来 进行 两 次 转账 ， 最 终 狗 哥 的 账户 里 还 剩 6 元 钱 ， 相 当 于 
只 扣 了 5 元 钱 ， 但 是 猫 爷 的 账户 里 却 成 了 12 元 钱 ， 相 当 于 多 了 10 元 钱 。 这 样 一 来 ， 银 行 岂 不 
是 要 亏 死 了 ? 

所 以 ， 对 于 现实 世界 中 状态 转换 对 应 的 某 些 数据 库 操作 来 说 ， 不 仅 要 保证 这 些 操作 以 原子 
性 的 方式 执行 完成 ， 而 且 要 保证 其 他 的 状态 转换 不 会 影响 到 本 次 状态 转换 ， 这 个 规则 称 为 隔离 
人 性。 这 时 ， 设 计数 据 库 的 大 叔 就 需要 采取 一 些 措 施 ， 让 访问 相同 数据 (上 例 中 的 A 账户 和 B 
账 尸 ) 的 不 同 状态 转换 (上 例 中 的 TI 和 T2) 对 应 的 数据 库 操作 的 执行 顺序 有 一 定 规律 ， 这 也 
是 后 面 章节 要 仔细 啼 电 的 内 容 。 


18.1.3 一 致 性 ( Consistency) 


我 们 生活 的 现实 世界 中 存在 形形色色 的 约束 ， 比 如 身份 证 号 不 能 重复 、 性 别 只 能 是 男 或 者 
女 、 高 考 的 分 数 只 能 在 0 ~ 750 之 间 (国内 某 些 省 份 )、 人 民 币 的 最 大 面值 只 能 是 100〔( 现 在 
是 2020 年 )、 红 绿灯 只 有 3 种 颜色 、 房 价 不 能 为 负 的 、 学 生 要 听 老 师 话 ; 等 等 等 等 。 只 有 符 
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合 这 些 约束 的 数据 才 是 有 效 的 。 比 如 ， 有 个 小 孩儿 跟 你 说 他 的 高 考 成 绩 是 1000 分 ， 你 一 听 就 
知道 他 在 胡扯 。 

数据 库 世界 只 是 现实 世界 的 一 个 映射 ， 现实 世界 中 存在 的 约束 当然 也 要 在 数据 库 世界 中 有 
所 体现 。 如 果 数 据 库 中 的 数据 全 部 符合 现实 世界 中 的 约束 ， 我 们 就 说 这 些 数据 就 是 一 一 致 的 ， 或 
音 说 符合 一 致 性 的 。 


如 何 保证 数据 库 中 数据 的 一 致 性 呢 (就 是 符合 所 有 现实 世界 的 约束 )? 这 其 实 是 靠 两 方面 
的 努力 。 
e 数据 库 本 身 能 为 我 们 解决 一 部 分 一 致 性 需求 (就 是 数据 库 自身 可 以 保证 现实 世界 的 一 
部 分 约束 永远 有 效 )。 
我 们 知道 ，MySQL 数据 库 可 以 为 表 建 立 主 键 、 唯 一 索引 、 外 键 ， 还 可 以 声明 某 个 列 为 NOT 
NULL 来 拒绝 NULL 值 的 插入 。 比 如 ， 当 对 某 个 列 建立 唯一 索引 时 ， 如 果 插 入 某 条 记录 时 发 现 
该 列 的 值 重复 了 ，MySQL 就 会 报错 并 且 拒 绝 插 入 。 除了 这 些 已 经 非常 熟悉 的 用 来 保证 一 致 性 
的 功能 ，MySQL 还 支持 使 用 CHECK 语法 来 自 定义 约束 。 比 如 下 面 这 样 : 
CREATE TABLE account ( 
id INT NOT NULL AUTO_INCREMENT COMMENT ' 自 增 id'， 
name VARCHAR(100) COMMENT ' 客 户 名 称 '， 
balance INT COMMENT “' 余 额 '， 
PRIMARY KEY (id) ， 
CHECK (balance >= 0) 
人 
在 这 个 例子 中 ，CHECK 语句 的 本 意 是 想 规定 balance 列 不 能 存储 小 于 0 的 数字 ， 对 应 
企 现实 世界 中 的 意思 就 是 银行 账户 余额 不 能 小 于 0。 但 是 很 遗憾 ，MySQL 仅仅 支持 CHECK 
| 语法 ， 但 实际 上 并 没有 用 。 也 就 是 说 ， 即 使 使 用 上 述 带 有 CHECK 子 句 的 建 表 语句 来 创建 
| account 表 ， 在 后 续 插入 或 更 新 记录 时 ，MySQL 也 不 会 去 检查 CHECK 子 句 中 的 约束 是 否 成 立 。 


作用 的 ， 每 次 进行 插入 或 人 5 符合 


; 注 谋 其 他 的 一 些 数 据 库 ( 比如 SQL Server 或 者 Oracle} 支持 的 CHECK 下 2 
、 在 的 Ss 2 RK 
小 贴 士 。 的 约束 条 件 ， 如 果 不 符 合 就 会 拒绝 插入 或 更 新 。 六 





虽然 CHECK 子 句 对 一 致 性 检查 没什么 用 ， 但 我 们 还 是 可 以 通过 定义 然 发 的 方式 米 自 定 
义 一 些 约束 条 件 ， 以 保证 数据 库 中 数据 的 一 致 性 。 


-7X- ”能 发 器 是 MySQL 的 基础 知识 ， 而 本 书 的 定位 是 MySQL 进 阶 。 如 3 
92: 发 器 ， 息 怕 就 要 找 本 基础 的 MySQL 图 书 来 看 看 了 ， a 在 衬 使 用 | gi 
小 贴 士 “从 零 开 始 学 习 MySQL》。 BA 





e 更 多 的 一 TS 

为 了 建立 现实 世界 和 数据 库 世 界 的 对 应 关系 ， 理 论 上 应 该 把 现实 世界 中 的 所 有 约束 都 反映 
到 数据 库 世 界 中 。 但 是 很 不 幸 ， 在 更 改 数据 库 数据 时 进行 一 致 性 检查 是 一 个 耗费 性 能 的 工作 。 
比如 ， 我 们 为 account 表 建 立 了 一 个 触发 器 ， 每 当 插 入 或 者 更 新 记录 时 都 会 校 验 balance 列 的 
值 是否 大 于 0， 这 就 会 影响 到 捅 入 或 更 新 的 速度 。 仅仅 校 验 一 行 记录 是 否 符 合 一 致 性 的 需求 倒 
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也 不 是 什么 大 问题 ， 但 是 有 的 一 致 性 需求 简直 “变态 ”。 比 如 ， 银 行 会 建立 一 张 代 表 账 单 的 表 ， 
里 面 记 录 了 每 个 账户 的 每 笔 交 易 ， 而 且 每 一 笔 交 易 完 成 后 ， 都 需要 保证 整个 系统 的 余额 等 于 所 
有 账户 的 收入 减 去 所 有 账户 的 支出 。 如 果 在 数据 库 层面 实现 这 个 一 致 性 需求 的 话 ， 则 每 次 发 生 
交易 时 ， 都 需要 将 所 有 的 收入 加 起 来 ， 然 后 再 减 去 所 有 的 支出 ;再 将 所 有 的 账户 余额 加 起 来 ， 
看 看 两 个 值 是 否 相 等 。 如 果 账 单 表 中 有 几 亿 条 记录 ， 光 是 这 个 校 验 的 过 程 可 能 就 要 耗费 好 几 个 
小 时 。 也 就 是 说 你 在 煎饼 摊 买 煎饼 时 ， 使 用 银行 卡 付 款 之 后 要 等 好 几 个 小 时 才能 提示 付款 成 
功 。 这 不 是 搞笑 么 ! 这 样 的 性 能 代价 是 完全 承受 不 起 的 。 

现实 生活 中 复杂 的 一 致 性 需求 比比 省 是 ， 而 由 于 性 能 问题 把 一 至 性 需求 交 给 数据 库 来 解 
决 也 是 不 现实 的 ， 所 以 这 个 “ 锅 ” 就 忆 给 了 业务 端的 程序 员 。 比 如 我 们 的 account 表 ， 我 们 也 
可 以 不 建立 触发 器 ， 只 要 编写 业务 代码 的 程序 员 在 自己 的 代码 中 判断 一 下 ， 当 某 个 操作 会 将 
balance 列 的 值 更 新 为 小 于 0 的 值 时 ， 不 执行 该 操作 。 这 就 好 了 嘛 ! 

前 文 踪 曙 的 原子 性 和 隔离 性 都 会 对 一 致 性 产生 影响 。 比 如 ， 在 现实 世界 中 转账 操作 完成 
后 ， 有 这 样 一 个 一 致 性 需求 : 参与 转账 的 账户 的 总 余额 是 不 变 的 。 如 果 数 据 库 不 遵循 原子 性 要 
求 ， 比 如 转 了 一 半 就 不 转 了 ， 也 就 是 说 给 狗 哥 扣 了 钱 而 没 给 猫 爷 转 过 去 ， 那 就 是 不 符合 一 致 性 
需求 的 。 类 似 地 ， 如 果 数 据 库 不 遵循 隔离 性 要 求 ， 就 像 前 面 啼 四 隔 离 性 时 举 的 例子 那样 ， 最 终 
狗 哥 账户 中 扣 的 钱 和 猫 和 分 账户 中 涨 的 钱 可 能 就 不 一 样 了 ， 也 就 是 说 不 符合 一 致 性 需求 了 。 所 以 
说 ， 数 据 库 茶 些 操作 的 原子 性 和 隔离 性 都 是 保证 一 致 性 的 一 种 手段 ， 在 操作 执行 完成 后 保证 符 
合 所 有 既定 的 约束 则 是 一 种 结果 。 那 么 ， 满 足 原子 性 和 隔离 性 的 操作 一 定 就 满足 一 致 性 么 ? 这 
倒 也 不 一 定 。 比 如 ， 狗 哥 要 转账 20 元 给 猫 和 区， 虽然 这 满足 原子 性 和 隔离 性 ， 但 是 在 转账 完成 
后 狗 哥 账户 的 余额 就 成 负 的 了 ， 这 显然 是 不 满足 一 致 性 的 。 那 么 ， 不 满足 原子 性 和 隔离 性 的 操 
作 就 一 定 不 满足 一 致 性 么 ? 也 不 一 定 ， 只 要 最 后 的 结果 符合 所 有 现实 世界 中 的 约束 ， 那 么 就 是 
符合 一 致 性 的 (当然 ， 我 们 一 般 在 定义 一 致 性 需求 时 ， 只 要 茶 些 数据 库 操作 满足 原子 性 和 隔离 
性 规则 ， 那 么 这 些 操作 执行 后 的 结果 就 会 满足 一 致 性 需求 )。 


18.1.4 持久 性 ( Durability) 


当 现 实 世界 中 的 一 个 状态 转换 完成 后 ， 这 个 转换 的 结果 将 永久 保留 ， 这 个 规则 被 设计 数据 
库 的 大 叔 称 为 持久 性 。 比 如 ， 狗 哥 向 猫 爷 转账 ，ATM 机 提示 转账 成 功 时 ， 就 意味 着 这 次 账户 
的 状态 转换 完成 了 ， 狗 哥 就 可 以 拔 卡 走 人 了 。 如 果 狗 哥 走 人 之 后 ， 银 行 又 把 这 次 转账 操作 给 撤 
销 掉 ， 恢 复 到 没 转账 之 前 的 样子 ， 猫 苑 就 惨 了 ， 所 以 这 个 持久 性 是 非常 重要 的 。 

当 把 现实 世界 中 的 状态 转换 映射 到 数据 库 世界 时 ， 持 久 性 意味 着 该 次 转换 对 应 的 数据 库 操 
作 所 修改 的 数据 都 应 该 在 磁盘 中 保留 下 来 ， 无 论 之 后 发 生 了 什么 事故 ， 本 次 转换 造成 的 影响 都 
不 应 该 丢失 《要 不 然 猫 爷 就 麻烦 大 了 )。 


18.2 ”事务 的 概念 


为 了 方便 大 家 记 住 前 文 啼 路 的 现实 世界 状态 转换 过 程 中 需要 遵守 的 4 个 特性 ， 我 们 把 原子 
性 (Atomicity)、 隔 离 性 《Isolation)、 一 致 性 (Consistency) 和 持久 性 (Durability) 这 4 个 单 
词 对 应 的 首 字母 提取 出 来 ， 就 是 A、I、C、D。 这 4 个 字母 稍微 变换 一 下 顺序 可 以 组 成 一 个 完 
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该 想到 原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 这 几 个 规则 。 


丸 外 ， 设 计数 据 库 的 大 叔 为 了 方便 起 见 ， 把 需要 保证 原子 性 、 隔 离 性 、 一 致 性 和 持久 性 的 
一 个 或 多 个 数据 库 操 作 称 为 事务 (transaction ) 。 

我 们 现在 知道 ， 事 务 是 一 个 抽象 的 概念 ， 它 其 实 对 应 着 一 个 或 多 个 数据 库 操 作 。 设 计数 据 
库 的 大 叔 根据 这 些 操作 所 执行 的 不 同 阶段 把 事务 大 致 划分 成 了 下 面 几 个 状态 


活动 的 (active): 事务 对 应 的 数据 库 操作 正在 执行 过 程 中 时 ， 我 们 就 说 该 事务 处 于 活 
动 的 状态 。 

部 分 提交 的 partially committed)， 当 事务 中 的 最 后 一 个 操作 执行 完成 ， 但 由 于 操作 都 在 内 
存 中 执行 ， 所 造成 的 影响 并 没有 刷新 到 磁盘 时 ， 我 们 就 说 该 事务 处 于 部 分 提交 的 状态 。 
失败 的 failed)， 当 事务 处 于 活动 的 状态 或 者 部 分 提交 的 状态 时 ， 可 能 遇 到 了 某 些 错 
话 《〈 数 据 库 自身 的 错误 、 操 作 系统 错误 或 者 直接 断 电 等 ) 而 无 法 继续 执行 ， 或 者 人 为 
停止 了 当前 事务 的 执行 ， 我 们 就 说 该 事务 处 于 失败 的 状态 。 

中 止 的 (aborted): 如 果 事务 执行 了 半截 而 变 为 失败 的 状态 ， 比 如 前 面 啼 四 的 狗 哥 向 猎 
节 巷 账 的 事务 ， 当 狗 哥 账户 的 钱 被 扣除 ， 但 是 猫 爷 账户 的 钱 没 有 增加 时 遇 到 了 错误 ， 
从 而 导致 当前 事务 处 在 了 失败 的 状态 ， 那 么 就 需要 把 已 经 修改 的 狗 哥 账户 余额 调整 为 
未 转账 之 前 的 金额 。 换 句 话说， 就 是 要 撤销 失败 事务 对 当前 数据 库 造 成 的 影响 。 这 个 
撤销 的 过 程 用 书面 一 点 的 话 描述 就 是 ， 回 滚 。 当 回 滚 操作 执行 完毕 后 ， 也 就 是 数据 库 
恢复 到 了 执行 事务 之 前 的 状态 ， 我 们 就 说 该 事务 处 于 中 止 的 状态 。 

提交 的 (committed):， 当 一 个 处 于 部 分 提交 的 状态 的 事务 将 修改 过 的 数据 都 刷新 到 磁 
盘 中 之 后 ， 我 们 就 可 以 说 该 事务 处 于 提交 的 状态 。 


随 厦 事务 对 应 的 数据 库 操作 执行 到 不 同 的 阶段 ， 事 务 的 状态 也 在 不 断 变 化 。 一 个 基本 的 状 
态 转 换 图 如 图 18-3 所 示 。 





SR 


和 


18-3 ”事务 的 状态 转换 图 





从 图 18-3 可 以 看 出 ， 只 有 当 事 务 处 于 提交 的 或 者 中 止 的 状态 时 ， 一 个 事务 的 生命 周期 才 
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| 
整 的 英文 单词 : ACID (在 英文 中 为 “ 酸 ” 的 意思 )。 以 后 我 们 提 到 ACID 这 个 词 儿 ， 大 家 就 应 
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算是 结束 了 。 对 于 已 经 提交 的 事务 来 说 ， 该 事务 对 数据 库 所 做 的 修改 将 永久 生效 ; 对 于 处 于 中 
止 状 态 的 事务 来 说 ， 该 事务 对 数据 库 所 做 的 所 有 修改 都 会 被 回 滚 到 没 执行 该 事务 之 前 的 状态 。 


这 里 需要 叶 村 二 下。 大 家 知道 ,计算 机 术 话 基本 由 会 归 从 闫 寺 甚 泽 为 中 文 的 ;可 务 
的 英文 是 transaction， 直 译 为 “交易 “买卖” 的 意思 . 交易 就 是 买 的 人 付 钱 ， 卖 的 人 
全 : 交 货 ， 不 能 付 了 钱 不 交 货 ， 也 不 能 交 了 货 不 付 钱 。 所 以 交易 本 身 就 是 一 种 不 可 分 割 的 操 
小 贴 士 ， 作 。 不 知道 是 哪 位 同学 把 transaction 翻译 成 了 “事务 ”( 信 计 是 他 也 想 不 出 什么 更 好 的 

词 儿 ， 只 能 使 用 “事务 ”)， 事务 这 个 词 几 完全 没有 “交易 ”“ 买 卖 ” 的 意思 ， 所 以 大 家 
理解 起 来 也 会 比较 困难 .估计 母语 是 英语 的 同学 可 能 会 更 容易 理解 transaction 吧 . 


18.3 ”MySQL 中 事务 的 语法 


事务 的 本 质 其 实 就 是 一 系列 数据 库 操作 ， 只 不 过 这 些 数据 库 操作 符合 ACID 特性 而 已 。 那 
，MySQL 是 如 何 将 某 些 操作 放 到 一 个 事务 中 去 执行 的 呢 ? 下 面 就 来 重点 啼 明 一 下 。 


18.3.1 开局 事务 


可 以 使 用 下 面 两 种 语句 来 开启 一 个 事务 。 

e BEGIN [WORKI]: 

BEGIN 语句 代表 开局 一 个 事务 ， 后 边 的 单词 WORK 可 有 可 无 。 开 启事 务 后 ， 就 可 以 继续 
写 者 干 条 语句 ， 这 些 语句 都 属于 刚刚 开启 的 这 个 事务 。 


六 


mYSG1L> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> 加 入 事务 的 语句 . . . 


© STARTTRANSACTION- 
START TRANSACTION 语句 与 BEGIN 语句 有 相同 的 功效 ， 都 标志 着 开启 一 个 事务 。 比 
如 下 面 这 样 : 


mysql> START TRANSACTION; 
Query OK, 0 rows affected (0.00 sec) 


mysql> 加 入 事务 的 语句 . . . 


相 较 于 BEGIN 语句 ，START TRANSACTION 语句 后 面 可 以 跟随 几 个 修饰 符 ， 如 下 所 示 。 


四 READ ONLY : 标识 当前 事务 是 一 个 只 读 事务 ， 也 就 是 属于 该 事务 的 数据 库 操 作 只 
能 读 取 数据 ， 而 不 能 修改 数据 。 


~ 其 实 只 读 事务 只 是 不 允许 修改 那些 其 他 事务 也 能 访问 的 表 中 的 数据 .对 于 临时 表 
9: (使 用 CREATE TMEPORARY TABLE 创建 的 表 ) 来 说 ,由 于 它们 只 能 在 当前 会 话 中 可 
小 贴 士 “ 见 ， 所 以 只 读 事务 可 以 对 临时 表 进 行 增 人 删改 操作 . 
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ee 
四 READ WRITE : 标识 当前 事务 是 一 个 读 写 事务 ， 也 就 是 属于 该 事务 的 数据 库 操作 
经 可 以 读 取 数 据 ， 也 可 以 修改 数据 。 


四 WIIH CONSISTENT SNAPSHOT : 启动 一 致 性 读 〈 先 不 用 关心 啥 是 一 致 性 读 ， 后 
面 的 章节 才 会 啼 吊 )。 


如 果 我 们 想 开启 一 个 只 读 事务 ， 直 接 把 READ ONLY 修饰 符 加 在 START TRANSACTION 
语句 后 面 就 好 。 比 如 下 面 这 样 : 


START TRANSACTION READ ONLY; 


如 果 想 在 START TRANSACTION 后 面 跟随 多 个 修饰 符 ， 可 以 使 用 逗号 将 修饰 符 分 开 。 比 
如 开启 一 个 只 读 事务 和 一 致 性 读 ， 可 以 这 样 写 : 


START TRANSACTION READ ONLY, WITH CONSISTENT SNAPSHOT; 
或 者 开启 一 个 读 写 事 务 和 一 致 性 读 ， 可 以 这 样 写 : 


5TART TRANSACTION READ WRITE, WITHB CONSISTENT SNAPSHOT; 


WW ; 


不 过 这 里 需要 注意 的 一 点 是 ， READ ONLY 和 READ WRITE 是 用 来 设置 事务 访问 模式 

的 ， 就 是 以 只 \ 读 还 是 读 写 的 方式 来 访问 数据 库 中 的 数据 。 一 个 事务 的 访问 模式 不 能 既 设置 

为 只 读 的 ， 也 设置 为 读 写 的 ， 所 以 不 能 同时 把 READ ONLY 和 READ WRITE 放 到 START 

i 


TRANSACTION 语句 后 面 。 男 鲜 ， 如 果 不 显 式 指定 事务 的 访问 模式 ， 那 么 该 事务 的 访问 模式 
就 是 读 写 模式 。 


18.3.2 提交 事务 





开局 事务 之 后 就 可 以 继续 编写 需要 放 到 该 事务 中 的 语句 了 。 当 最 后 一 条 语句 写 完 后 就 可 以 
提交 该 事务 了 。 提 交 的 语句 也 很 简单 : 


COMMIT [WORK] ; 


COMMIT 语句 就 代表 提交 一 个 事务 ， 后 边 的 WORK 可 有 可 无 。 比如 前 文 说 的 狗 哥 给 猫 爷 
转 10 元 钱 其 实 对 应 MySQL 中 的 两 条 语句 。 我 们 就 可 以 把 这 两 条 语句 放 到 一 个 事务 中 ， 完 整 
的 过 程 就 是 下 面 这 样 : 


mysql> BEGIN; | 
Query OK, 0 rows affected (0400 sec) 
| 
mysql> UPDATE account SET balance = balance - 10 WHERE id = 1; 
Query OK, 1 row affected (0.02 sec) 
Rows matched: 1 Changed: 1 IWarnings: 0 





mysql> UPDATE account SET balance = balance + 10 WHERE id = 2; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 |Warnings: 0 


mysql> COMMIT; 
Query OK, 0 rows affected (0100 sec) 








302 第 18 章 从 猫 节 借 钱 说 起 一 一 事务 简介 


如 果 我 们 写 了 几 条 语句 之 后 发 现 前 面 某 条 语句 写 错 了 ， 可 以 手动 使 用 下 面 这 个 语句 将 数据 
库 恢复 到 事务 执行 之 前 的 样子 : 


ROLLBRACK [WORK] ; 


ROLLBACK 语句 代表 回 滚 一 个 事务 ， 后 边 的 WORK 可 有 可 无 。 比 如 在 写 狗 哥 给 猫 和 爷 转 
账 10 元 钱 所 对 应 的 MySQL 语句 时 ， 先 给 狗 哥 扣 了 10 元 ， 然 后 一 时 大 意 只 给 猫 和 苑 账户 上 增加 
了 1 元， 此 时 就 可 以 使 用 ROLLBACK 语句 进行 回 滚 。 完 整 的 过 程 就 是 下 面 这 样 : 


: 
18.3.3 ”手动 中 止 事务 


Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


mysql> UPDATE account SET balance = balance + 1 WHERE id = 2; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


mysgl> ROLLRRCK; 

Query OK, 0 rows affected (0.00 sec) 

这 里 需要 强调 一 下 ，ROLLBACK 语句 是 我 们 程序 员 在 手动 回 滚 事务 时 使 用 的 。 如 果 事 务 
在 执行 过 程 中 遇 到 了 某 些 错 误 而 无 法 继续 执行 的 话 ， 大 部 分 情况 下 会 回 滚 失 败 的 语句 ， 在 某 些 
情况 下 会 回 滚 整 个 事务 ， 比 方 说 在 发 生 了 死 锁 的 情况 下 会 回 深 整 个 事务 (关于 死 锁 的 概念 我 们 
会 在 22 章 啼 明 )。 


~ “这 里 所 说 的 开局 、 提 交 、 中 止 事务 的 语法 只 是 针对 mysql 客户 端 程序 通过 黑 框框 与 
~ 服务 器 进行 交互 时 ， 用 来 控制 事务 的 语法 。 如 果 大 家 使 用 的 是 其 他 的 客户 端 程序 ， 比 如 
小 贴 士 “JDBC 之 类 的 ， 则 需要 参考 相应 的 文档 来 看 看 如 何 控制 事务 ， 


mysql> BEGIN 
Query OK, 0 rows affected (0.00 sec) 
mysql> UPDATE account SET balance = balance ~- 10 WHERE id = 1; 


18.3.4 支持 事务 的 存储 引擎 


在 MySQL 中 ， 并 不 是 所 有 的 存储 引擎 都 支持 事务 的 功能 ， 目 前 只 有 InnoDB 和 NDB 存 
引擎 支持 (NDB 存储 引擎 不 是 我 们 的 重点 )。 tei ee be eit 
据 ， 但 是 该 表 使 用 的 存储 引擎 不 支持 事务 ， 那 么 对 该 表 所 做 的 修改 将 无 法 进行 回 滚 。 假 设 我 们 
有 两 个 表 ，tbll 使 用 支持 事务 的 存储 引擎 InnoDB，tbl2 使 用 不 支持 事务 的 存储 引擎 MyISAM。 
它们 的 建 表 语句 如 下 所 示 : 

CREATE TABLE tbll ( 


1 
) engine=InnoDB; 


CREATE TABLE tbl2 ( 
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) ee el 
/ 我 们 先 开启 一 个 事务 ， 写 一 条 插入 语句 后 再 回 滚 该 事务 。 看 看 tbll 和 tbl2 的 表现 有 什么 不 同 ， 
mysql> SELECT * FROM tb]ll; 
: Empty set (0.00 sec) 


mysql> BEGIN; 


| Query OK, 0 rows affected (0.00 sec) 
% 

| 
i mysql> INSERT INTO tbll VALUES\(1); 
Query OK, 1 row affected (0.00| sec) 
, mysql> ROLLBRCK; 
: 


Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT * FROM tbl]l; 
Empty set (0.00 sec) 


可 以 看 到 ， 对 于 使 用 InnoDB 存储 引擎 〈 支 持 事务 ) 的 tbll 来 说 ， 我 们 在 插入 一 条 记录 再 
执行 ROLLBACK 语句 后 ，tbll 恢复 到 没有 插入 记录 时 的 状态 。 再 看 看 tbl2 表 的 表现 : 


\ 
mysql> SELECT * FROM tbl12; 
Empty set (0.00 sec) 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 





Query OK, 1 row affected (0.00 sec) 


mysql> ROLLBACK; 
Query OK, 0 rows affected, 1 warning (0.01 sec) 


mysql> INSERT INTO tbl2 VALUES|I(1) ; 
mysgql> SELECT * FROM tbl12; 


1 row in set (0.00 sec) 


可 以 看 到 ， 虽 然 使 用 了 ROLLBACK 语句 来 回 滚 事务 ， 但 是 插入 的 那 条 记录 还 是 留 在 了 tbl2 
表 中 。 





18.3.5 目 动 提交 


MySQL 中 有 一 个 系统 变量 autocommit， 用 来 自动 提交 事务 。 


mysql> SHOW VARIABLES LIKE 'autocommit'; 
+ 一 一 一 一 一 一 一 一 ~ 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
| Variable name | Value | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +4 一 一 一 一 一 一 一 + 
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| autocommit | ON | 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 


1 row in set (0.01 sec) 


可 以 看 到 它 的 默认 值 为 ON。 也 就 是 说 在 默认 情况 下 ， 如 果 不 显 式 地 使 用 START TRANSACTION 
或 者 BEGIN 语句 开启 一 个 事务 ， 那 么 每 一 条 语句 都 算是 一 个 独立 的 事务 ， 这 种 特性 称 为 事务 
的 自动 提交 。 假 如 我 们 在 狗 哥 向 猫 爷 转账 10 元 时 不 以 START TRANSACTION 或 者 BEGIN 语 
句 显 式 开 启 一 个 事务 ， 那 么 下 面 这 两 条 语句 就 相当 于 放 到 两 个 独立 的 事务 中 执行 : 


UPDATE account SET balance = balance - 10 WHERE id = 1; 
UPDATE account SET balance = balance + 10 WHERE id = 2; 


当然 ， 如 果 想 关闭 这 种 自动 提交 的 功能 ， 可 以 使 用 下 面 两 种 方法 。 

e@e 显 式 地 使 用 START TRANSACTION 或 者 BEGIN 语句 开启 一 个 事务 。 
这 样 在 本 次 事务 提交 或 者 回 滚 前 会 暂时 关闭 自动 提交 的 功能 。 

e 把 系统 变量 autocommit 的 值 设置 为 OFF， 就 像 下 面 这 样 : 


SET autocommit = OFF; 


这 样 一 来 ， 我 们 写 入 的 多 条 语句 就 算是 属于 同一 个 事务 了 ， 直 到 我 们 显 式 地 写 出 COMMIT 
语句 把 这 个 事务 提交 掉 ; 或 者 显 式 地 写 出 ROLLBACK 语句 把 这 个 事务 回 滚 掉 。 


18.3.6 ” 隐 式 提交 


当 使 用 START TRANSACTION 或 者 BEGIN 语句 开启 了 一 个 事务 ， 或 者 把 系统 变量 autocommit 
的 值 设 置 为 OFF 时， 事务 就 不 会 进行 自动 提交 。 如 果 我 们 输入 了 某 些 语句 ， 且 这 些 语句 会 导 
致 之 前 的 事务 悄悄 地 提交 掉 〈 就 像 输入 了 COMMIT 语句 了 一 样 ) ， 那 么 这 种 因为 某 些 特殊 的 
语句 而 导致 事务 提交 的 情况 称 为 隐 式 提交 。 会 导致 事务 隐 式 提交 的 语句 有 下 面 这 些 。 

e 定义 或 修改 数据 库 对 象 的 数据 定义 语言 (Data Definition Language, DDL).。 

所 谓 的 数据 库 对 象 ， 指 的 就 是 数据 库 、 表 、 视 图 、 存 储 过 程 等 这 些 东 西 。 当 使 用 
CREATE、ALTER、DROP 等 语句 修改 这 些 数 据 库 对 象 时 ， 就 会 隐 式 地 提交 前 面 语句 所 属 的 事 
务 ， 就 像 下 面 这 样 : 


BEGIN; 


SELECT ..。. 站 事务 中 的 一 条 语句 
UPDATE ..。 间 事务 中 的 一 条 语句 
.。# 事务 中 的 其 他 语句 


CREATE TABLE ... # 此 语句 会 隐 式 提交 前 面 语句 所 属 的 事务 


e 隐 式 使 用 或 修改 mysql 数据 库 中 的 表 。 

在 使 用 ALTER USER、CREATE USER、DROP USER、GRANT、RENAME USER、REVOKE、 
SET PASSWORD 等 语句 时 ， 也 会 隐 式 地 提交 前 面 语句 所 属 的 事务 。 

e@ 事务 控制 或 关于 锁定 的 语句 。 

当 我 们 在 一 个 事务 还 没 提 交 或 者 还 没 回 滚 时 就 又 使 用 START TRANSACTION 或 者 BEGIN 
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语句 开启 了 另 一 个 事务 ， 此 时 会 隐 式 地 提交 上 一 个 事务 ， 就 像 下 面 这 样 : 


BEGIN,; 


SELECT ... # 事务 中 的 一 条 语句 
UPDATE ... ## 事务 中 的 一 条 语句 
.。## 事务 中 的 其 他 语句 


BEGIN; # 此 语句 会 隐 式 提交 前 面 语句 所 属 的 事务 


在 当前 的 autocommit 系统 变量 的 值 为 OFF， 而 我 们 手动 把 它 调 为 ON 时 ， 也 会 隐 式 地 提 
交 前 面 语句 所 属 的 事务 。 

使 用 LOCK TABLES、UNLOCK TABLES 等 关于 锁定 的 语句 也 会 隐 式 地 提交 前 面 语句 所 
属 的 事务 。 

e 加 载 数据 的 语句 。 

比如 使 用 LOAD DATA i 看 句 向 数据 库 中 批量 导入 数据 时 ， 也 会 隐 式 地 提交 前 面 语 句 所 属 
的 事务 。 

e 关于 MySQL 复制 的 一 些 语句 。 

使 用 START SLAVE、STOP SLAVE、RESET SLAVE、CHANGE MASTER TO 等 语句 时 也 
会 隐 式 地 提交 前 面 语句 所 属 的 事务 。 

e@ 其 他 语句 。 | 

使 用 ANALYZE TABLE、CACHE INDEX、CHECK TABLE、FLUSH、 LOAD INDEX INTO 


CACHE、 OPTIMIZE TABLE、 REPAIR TABLE、RESET 等 语句 时 也 会 隐 式 地 提交 前 面 语句 所 


属 的 事务 。 


上 文 提 到 的 这 些 语句 ， 如 果 你 都 认识 并 且 都 知道 是 干 嘛 用 的 ， 那 就 再 好 不 过 了 . 不 
六 : 认识 也 不 要 气候 ， 这 里 写 出 未 只 是 把 可 能 会 导 到 事务 隐 式 提交 的 情况 者 列举 一 下 ， 以 保 
小 贴 士 ” 证 内 容 的 完整 性 . 至 于 具体 每 个 语句 都 是 干 嘛 用 的 ， 等 遇 到 了 再 说 。 


18.3.7 保存 所 


如 果 你 已 经 开启 了 一 个 事务 ， 并 且 已 经 输入 了 很 多 语句 ， 这 时 忽然 发 现 前 面 已 经 执行 完成 
的 某 个 语句 的 参数 写 错 了 ， 只 好 使 用 ROLLBACK 语句 来 让 数据 库 状 态 恢复 到 事务 执行 之 前 的 
样子 ， 然 后 一 切 从 头 再 来 。 是 不 是 有 一 种 “一 夜 回 到 解放 前 ”的 感觉 ? 

设计 数据 库 的 大 叔 提出 了 保存 点 (savepoint) 的 概念 ， 就 是 在 事务 对 应 的 数据 库 语 句 中 
“ 打 ” 几 个 点 。 我 们 在 调用 ROLLBACK 语句 时 可 以 指定 回 滚 到 哪个 点 ， 而 不 是 回 到 最 初 的 原 
点 。 定 义 保存 点 的 语法 如 下 : 


SAVEPOINT 保存 点 名 称 ; 


当 想 回 滚 到 某 个 保存 点 时 ， 可 以 使 用 下 面 这 个 语句 (语句 中 的 单词 WORK 和 SAVEPOINT 
是 可 有 可 无 的 ): 


| 


ROLLBACK [WORK] TO [SAVEPOINT] | 保存 点 名 称 ; 
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如 果 ROLLBACK 语句 后 面 不 跟随 保存 点 名 称 ， 则 直接 回 滚 到 事务 执行 之 前 的 状态 。 
如 果 想 删除 某 个 保存 点 ， 可 以 使 用 这 个 语句 : | 


RELEASE SAVEPOINT 保存 点 名 称 ; 


下 面 还 是 以 狗 哥 向 猫 爷 转 账 10 元 的 例子 来 介绍 保存 点 的 用 法 。 在 执行 完 扣 除 狗 哥 账户 的 
10 元 钱 的 语句 之 后 ,“ 打 ”一 个 保存 点 : 


mysql> SELECT * FROM account; 


+ 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
| id | name | balance | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 
| 工 | 狗 哥 | 本 
| 2 | 猫 爷 2 | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 


2 rows in set (0.00 sec) 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> UPDATE account SET balance = balance - 10 WHERE id = 1; 
Query OK, 1 row affected (0.01 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


# 一 个 保存 点 
mysql> SAVEPOINT sl; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT * FROM account; 


十 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 
| id | name | balance | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 
| 11 狗 哥 “| 1 | 
| 21 狂 和 蔡 | 2 | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 


2 rows in set (0.00 sec) 


# 更 新 语句 的 参数 写 错 了 〔 应 该 给 账户 加 10 元 ， 语 句 中 加 了 1 元 ) 

mysql> UPDATE account SET balance = balance + 1 WHERE id = 2; 
Query OK, 1 row affected (0.00 sec) 

Rows matched: 1 Changed: 1 Warnings: 0 


mysql> ROLLBACK TO sl; # 回 滚 到 保存 点 s1 处 
Query OK, 0 rows affected (0.00 sec) 


mySsql> SELECT * FROM account; 


+ 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 -一 一 十 
| id.| name | balance | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 二 
| 1 | 狗 哥 | 1 | 
| 2 | 猫 苑 | 2 | 
+ 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 


2 rows in set (0.00 sec) 
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] 
18.4 总结 


| 
哎 实 世界 的 业务 场景 需要 映射 到 数据 库 世界 。 现 实 世界 中 的 一 次 状态 转换 需要 满足 下 而 几 
种 特性 : 


e 原子 性 ; 
e 隅 离 性 ; 
e 一 致 性 ; 
e 持久 性 。 
需要 保证 原子 性 、 隔 离 性 、 一 致 性 和 持久 性 的 一 个 或 多 个 数据 库 操作 称 为 事务 。 
事务 在 执行 过 程 中 有 几 种 状态 ， 分 别 是 : 

9 活动 的 ; 
部 分 提交 的 ; 
失败 的 ; 
中 止 的 ; 
提交 的 。 
关于 事务 的 各 种 语法 实在 太 多 ， 这 里 不 再 一 一 列举 。 




















第 19 伍 说 过 的 话 就 一 定 雪 做 到 一 一 red0 上 日 志 


19.1 事先 说 明 


本 章 以 及 后 面 几 章 的 内 容 将 会 频繁 地 使 用 到 前 面 啼 明 的 InnoDB 记录 行 格式 、 页 面 格式 、 
索引 原理 、 表 空间 的 组 成 等 各 种 基础 知识 。 如 果 大 家 对 这 些 内 容 理解 得 不 透彻 ， 那 么 在 阅读 包 
括 本 章 在 内 的 后 续 章节 时 可 能 会 有 些 吃 力 。 为 了 保证 阅读 体验 ， 请 大 家 确保 己 经 掌握 了 前 面 啼 
归 的 这 些 知识 。 


19.2” redo 日 志 是 蛤 


我 们 知道 ，InnoDB 存储 引擎 是 以 页 为 单位 来 管理 存储 空间 的 ， 我 们 进行 的 增删 改 查 操 
作 从 本 质 上 来 说 都 是 在 访问 页 面 (包括 读 页 面 、 写 页 面 、 创 建新 页 面 等 操作 )。 前 面 在 踪 号 
Buffer Pool 的 时 候 说 过 ， 在 真正 访问 页 面 之 前 ， 需 要 先 把 在 磁盘 中 的 页 加 载 到 内 存 中 的 Buffer 
Pool 中 ， 之 后 才 可 以 访问 。 但 是 在 叶 路 事务 的 时 候 ， 又 强调 过 一 个 称 为 持久 性 的 特性 。 就 是 
说 ， 对 于 一 个 已 经 提交 的 事务 ， 在 事务 提交 后 即使 系统 发 生 了 有 崩 演 ， 这 个 事务 对 数据 库 所 做 的 
更 改 也 不 能 丢失 。 

如 果 我 们 只 在 内 存 的 Buffer Pool 中 修改 了 页 面 ， 假 设 在 事务 提交 后 突然 发 生 了 某 个 故障 ， 
导致 内 存 中 的 数据 都 失效 了 ， 那 么 这 个 已 经 提交 的 事务 在 数据 库 中 所 做 的 更 改 也 就 跟着 丢失 
了 ， 这 是 我 们 所 不 能 忍受 的 。 想 一 下 ，ATM 机 已 经 提示 狗 哥 转账 成 功 ， 但 之 后 由 于 服务 器 出 
现 故 障 ， 猫 区 在 服务 器 重启 之 后 发 现 自己 没收 到 钱 ， 猫 苑 就 麻烦 大 了 )。 那 么 ， 如 何 保 证 这 个 
持久 性 呢 ? 一 个 很 简单 的 做 法 就 是 在 事务 提交 完成 之 前 ， 把 该 事务 修改 的 所 有 页 面 都 刷新 到 磁 
盘 。 不 过 这 个 简单 粗暴 的 做 法 存在 下 面 这些 问 题 。 

e 刷新 一 个 完整 的 数据 页 太 浪 费 了 。 有 时 我 们 仅仅 修改 了 某 个 页 面 中 的 一 个 字 节 ， 但 是 

由 于 InnoDB 是 以 页 为 单位 来 进行 磁盘 IO 的 ， 也 就 是 说 在 该 事务 提交 时 不 得 不 将 一 个 
完整 的 页 面 从 内 存 中 刷新 到 磁盘 。 我 们 又 知道 ， 一 个 页 面 的 默认 大 小 是 16KB， 因 为 修 
改 了 一 个 字 节 就 要 刷新 16KB 的 数据 到 磁盘 上 ， 显 然 太 浪费 了 。 

e 随机 LO 刷新 起 来 比较 慢 。 一 个 事务 可 能 包含 很 多 语句 ， 即 使 是 一 条 语句 也 可 能 修改 
许多 页 面 ,“ 倒 霉 催 ” 的 是 该 事务 修改 的 这 些 页 面 可 能 并 不 相 邻 。 这 就 意味 着 在 将 某 个 
事务 修改 的 Buffer Pool 中 的 页 面 刷新 到 磁盘 时 ， 需 要 进行 很 多 的 随机 IO。 随 机 IO 比 
顺序 IO 要 慢 ， 尤 其 是 对 于 传统 的 机 械 硬 盘 。 

咋 办 呢 ? 再 次 回 到 我 们 的 初 心 : 我 们 只 是 想 让 已 经 提交 了 的 事务 对 数据 库 中 的 数据 所 做 的 
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修改 能 永久 生效 ， 即 使 后 来 系统 骨 演 ， 在 重启 后 也 能 把 这 种 修改 恢复 过 来 。 所 以 ， 其 实 没有 必 
要 在 每 次 提交 事务 时 就 把 该 事务 在 内 存 中 修改 过 的 全 部 页 面 刷新 到 磁盘 ， 只 需要 把 修改 的 内 容 
什 从 改 放 2 基 人 0 基 个 二 务 将 系统 表 空间 第 10 号 页 面 中 信物 量 为 1000 处 的 于 个 字 闻 的 
值 从 1 改 成 2， 我 们 只 需要 进行 如 下 记录 ， 

将 第 0 号 表 空间 第 100 号 页 面 中 偏 移 量 为 1000 处 的 值 更 新 为 2。 


这 样 在 事务 提交 时 ， 就 会 把 上 述 内 容 刷 新 到 磁盘 中 。 即 使 之 后 系统 崩溃 了 ， 重 启 之 后 只 要 
按照 上 述 内 容 所 记录 的 步 又 重新 更 新 一 下 数据 页 ， 那 么 该 事务 对 数据 库 中 所 做 的 修改 就 可 以 被 
恢复 出 来 ， 这 样 也 就 意味 着 满足 持久 性 的 要 求 。 

因为 在 系统 因 崩 溃 而 重启 时 需要 按照 上 述 内 容 所 记录 的 步骤 重新 更 新 数据 页 ， 所 以 上 述 内 

容 也 称 为 重 做 日 志 (redo log)。 我 们 可 以 中 西 结合 ， 将 它 称 为 redo 日 志 。 相 较 于 在 事务 提交 
时 将 所 有 修改 过 的 内 存 中 的 页 面 刷 新 到 磁盘 中 ， 只 将 该 事务 执行 过 程 中 产生 的 redo 日 志 刷 新 
到 磁盘 具有 下 面 这 些 好 处 。 

。 redo 日 志 占 用 的 空间 非常 小 :在 存储 表 空间 ID、 页 号 、 偏 移 量 以 及 需要 更 新 的 值 时 ， 
需要 的 存储 空间 很 小 。 关 于 redo 日 志 的 格式 我 们 稍 后 会 详细 哎 胡 ， 现 在 只 要 知道 一 条 
redo 日 志 占 用 的 空间 不 是 很 大 就 好 了 。 

。 redo 日 志 是 顺序 写 入 磁盘 的 ， 在 执行 事务 的 过 程 中 ， 每 执行 一 条 语句 ， 就 可 能 产生 其 
干 条 redo 日 志 ， 这 些 日 起 是 按照 产生 的 顺序 写 入 磁盘 的 ， 也 就 是 使 用 顺序 /1O， 


19.3 redo 日 志 格 式 





由 前 文 可 知 ，redo 日 志 本 质 上 只 是 记录 了 一 下 事务 对 数据 库 进行 了 哪些 修改 ， 设计 
InnoDB 的 大 叔 针对 事务 对 数据 库 的 不 同 修改 场景 ， 定 义 了 多 种 类 型 的 redo 日 志 ， 但 是 绝 大 部 
分 类 型 的 redo 日 志 都 有 如 图 19-1 所 示 的 这 种 通用 结构 。 





图 19-1 redo 日 志 通 用 结构 


| 
redo 日 志 中 各 个 部 分 的 详细 解释 如 下 。 


9 type : 这 条 redo 日 志 的 类 型 。 
在 MySQL 5.7.22 版 本 中 ， 设 计 InnoDB 的 大 叔 一 共 为 redo 日 志 设 计 了 53 种 不 同 的 类 型 。 
稍 后 会 详细 介绍 不 同类 型 的 redo 日 志 。 
9 Space ID : 表 空 间 ID。 
9 pagenumber : 页 号 。 
9 data : 这 条 redo 日 志 的 具体 内 容 。 


| 
19.3.1 简单 的 redo 日 志 类 型 
我 们 先 通过 一 个 例子 引 简章 的 redo 日 志 类 型 的 概念 。 
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前 文 在 介绍 InnoDB 记录 行 格式 的 时 候 说 过 ， 如 果 没 有 为 某 个 表 显 式 地 定义 主键 ， 并 且 
表 中 也 没有 定义 不 允许 存储 NULL 值 的 UNIQUE 键 ， 那 么 InnoDB 会 自动 为 表 添 加 一 个 名 为 
row id 的 隐藏 列 作为 主键 。 为 这 个 row_id 隐藏 列 进行 赋值 的 方式 如 下 。 


服务 器 会 在 内 存 中 维护 一 个 全 局 变量 ， 每 当 向 某 个 包含 row_ id 隐藏 列 的 表 中 插入 一 条 
记录 时 ， 就 会 把 这 个 全 局 变量 的 值 当 作 新 记录 的 row id 列 的 值 ， 并 且 把 这 个 全 局 变量 
自 增 1。 

每 当 这 个 全 局 变量 的 值 为 256 的 倍数 时 ， 就 会 将 该 变量 的 值 刷 新 到 系统 表 空 间 页 号 
为 7 的 页 面 中 一 个 名 为 Max Row ID 的 属性 中 《前 文 介 绍 表 空 间 结 构 时 详细 说 过 该 
属性 。 之 所 以 不 是 每 次 自 增 该 全 局 变量 时 就 将 该 值 刷新 到 磁盘 ， 是 为 了 避免 频繁 
刷 盘 )。 

当 系 统 启动 时 ， 会 将 这 个 Max Row ID 属性 加 载 到 内 存 中 ， 并 将 该 值 加 上 256 之 后 赋 
值 给 前 面 提 到 的 全 局 变量 〈 因 为 在 系统 上 次 关机 时 ， 该 全 局 变量 的 值 可 能 大 于 磁盘 页 
面 中 Max Row ID 属性 的 值 )。 


这 个 Max Row ID 属性 占用 的 存储 空间 是 8 字 节 。 当 某 个 事务 向 某 个 包含 row id 隐藏 列 的 
表 插 入 一 条 记录 ， 并 且 为 该 记录 分 配 的 row_id 值 为 256 的 倍数 时 ， 就 会 向 系统 表 空 间 页 号 为 
7 的 页 面 的 相应 偏 移 量 处 写 入 8 字 节 的 值 。 但 是 我 们 要 知道 ， 这 个 写 入 操作 实际 上 是 在 Buffer 
Pool 中 完成 的 ， 我 们 需要 把 这 次 对 这 个 页 面 的 修改 以 redo 日 志 的 形式 记录 下 来 。 这 样 在 事务 
提交 之 后 ， 即 使 系统 崩 演 了 ， 也 可 以 将 该 页 面 恢复 成 衣 江 前 的 状态 。 在 这 种 对 页 面 的 修改 是 极 
其 简单 的 情况 下 ，redo 日 志 中 只 需要 记录 一 下 在 某 个 页 面 的 某 个 偏 移 量 处 修改 了 几 个 字 节 的 
值 、 有 具体 修改 后 的 内 容 是 啥 就 好 了 。 设 计 InnoDB 的 大 叔 把 这 种 极其 简单 的 redo 日 志 称 为 物理 
日 志 ， 并 且 根 据 在 页 面 中 写 入 数据 的 多 少 划分 了 几 种 不 同 的 redo 日 志 类 型 。 


MLOG 1BYTE (type 字段 对 应 的 十 进 制 数字 为 1): 表示 在 页 面 的 某 个 偏 移 量 处 写 入 1 
字 节 的 redo 日 志 类 型 。 

MLOG 2BYTE (type 字段 对 应 的 十 进 制 数字 为 2): 表示 在 页 面 的 某 个 偏 移 量 处 写 入 2 
字 节 的 redo 日 志 类 型 。 

MLOG 4BYTE (type 字段 对 应 的 十 进 制 数 字 为 4): 表示 在 页 面 的 某 个 偏 移 量 处 写 入 4 
字 节 的 redo 日 志 类 型 。 

MLOG 8BYTE (type 字段 对 应 的 十 进 制 数字 为 8): 表示 在 页 面 的 某 个 偏 移 量 处 写 入 8 
字 节 的 redo 日 志 类 型 。 

MLOG WRITE STRING (type 字段 对 应 的 十 进 制 数字 为 30): 表示 在 页 面 的 某 个 偏 移 
量 处 写 入 一 个 字 节 序列 。 


我 们 前 面 提 到 的 Max Row ID 属性 实际 占用 8 字 节 的 存储 空间 ， 所 以 在 修改 页 面 中 的 这 个 
属性 时 ， 会 记录 一 条 类 型 为 MLOG 8BYTE 的 redo 日 志 ， 它 的 结构 如 图 19-2 所 示 。 





表示 页 面 中 的 偏 移 量 
19-2 MLOG 8BYTE 类 型 的 redo 日 志 结 构 











| 
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其 余 的 MLOG 1BYTE、 MILOG_2BYTE、MLOG 4BYTE 类 型 的 redo 日 志 结 构 与 MLOG 
8BYTE 的 日 志 结 构 类 似 ， 只 不 过 具体 数据 中 包含 的 字 节 数量 不 同 圈 了 ， MLOG WRITE 
STRING 类 型 的 redo 日 志 表 示 写 入 一 个 字 节 序列 ， 但 是 因为 不 能 确定 写 入 的 具体 数据 占用 多 


/> 4 


2 i 字段 ， 如 图 19-3 所 示 。 





| 表示 具体 数据 占用 的 字 节 数 
图 19-3 MLOG _ WRITE STRING 类 型 的 redo 日 志 结构 
| 


本 中 要 将 MLOG_WRITE STRING 类 型 的 redo 日 志 的 len 字 役 填充 1 4、 富 这 
全: 些 数 字 ， 就 可 以 分 别 替代 MLOG 1BYTE、 MLOG 2BYTE` MLOG 4BYTE、 MLOG- 
nk 8BYTE 这些 类 型 的 redo 旧 志 ， 那 肥 ， 为 哈 还 要 多 此 一 举 ， 设 计 这 么 多 类 型 呢 ? 还 不 是 
小 贴 十 人 YE dr 7 
因为 有 空间 啊 。 能 不 写 len 字段 就 不 写 len 字段 ; 省 一 个 字 节 算 一 个 字 节 。 \ 
| 
19.3.2 复杂 一 些 的 redo 日 志 类 型 


有 了 时， 在 执行 一 条 语句 时 会 修改 非常 多 的 页 面 ， 包 括 系统 数据 页 面 和 用 户 数据 页 面 (用 记 

改 据 指 的 就 是 聚 驴 索引 和 二 级 索引 对 应 的 B+ 树 )。 以 一 条 INSERT 语句 为 例 ， 它 除了 向 B+ 树 

的 页 面 中 插入 数据 外 ， 也 可 能 更 新 系统 数据 Max Row ID 的 值 。 不 过 对 于 用 户 来 说 ， 平 时 更 关 

心 的 是 语句 对 B+ 树 所 做 的 更 新 。 

e 表 中 包含 多 少 个 索引 ， 一 条 INSERT 语句 就 可 能 更 新 多 少 棵 B+ 树 。 

。 针对 某 一 棵 B+ 树 来 说 ， 既 可 能 更 新 叶子 节点 页 面 ， 也 可 能 更 新 内 节点 页 面 ， 还 可 能 
创建 新 的 页 面 〈 在 该 记录 插入 的 叶子 节点 的 剩余 空间 比较 少 ， 不 足以 存放 该 记录 时 
会 进行 页 面 分 裂 ， 在 内 节点 页 面 中 添加 目录 项 记录 )， 

在 语句 执行 过 程 中 ，INSERT 语句 对 所 有 页 面 的 修改 都 得 保存 到 redo 日 志 中 去 。 这 人 句 话 

赔 的 比较 轻巧 ， 做 起 来 可 就 比较 麻烦 了 。 比 如 ， 在 将 记录 插入 到 诊 匀 索引 中 时 ， 如 果 定位 到 

的 叶子 节点 的 剩余 空间 足够 存储 该 记录 ， 那 么 只 更 新 该 叶子 节点 页 面 ， 并 只 记录 -一条 MLOG 

WRITE_STRING 类 型 的 redo 日 志 ， 表明 在 页 面 的 某 个 偏 移 量 处 增加 了 哪些 数据 不 就 好 了 

么 ? 那 就 天 真 了 。 别 忘 了 ， 一 个 数据 页 中 除了 存储 实际 的 记录 之 外 ， 还 有 File Header、 Page 

Header、Page Directory 等 部 分 (在 第 5 章 有 详细 讲解 )。 所 以 每 往 叶子 节点 代表 的 数据 页 中 插 

入 一 条 记录 ， 还 有 其 他 很 多 地 方 会 跟着 更 新 ， 比 如 ， 

@ 可 能 更 新 Page Directory 的 槽 信息 ; 

e 可 能 更 新 Page Header 中 的 各 种 页 面 统计 信息 ， 比 如 PAGE N_DIR_SLOTS 表示 的 槽 
数量 可 能 会 更 改 ，PAGE HEAP_TOP 代表 的 还 未 使 用 的 空间 最 小 地 址 可 能 会 更 改 ， 
FAGE_N_HEAP 代表 的 本 页 面 中 的 记录 数量 可 能 会 更 改 ……. 各 种 信息 都 可 能 会 
更 改 ; 

。 我 们 知道 ， 数 据 页 中 的 记录 按照 索引 列 从 小 到 大 的 顺序 组 成 一 个 单 向 链表 ， 每 插入 一 
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条 记录 ， 还 需要 更 新 上 一 条 记录 的 记录 头 信息 中 的 next record 属性 来 维护 这 个 单 问 
链表 。 

还 有 别 的 需要 更 新 的 地 方 ， 这 里 就 不 一 一 除 明 了 。 

数据 页 修改 的 简易 示意 图 如 图 19-4 所 示 。 


第 一 个 被 修改 的 字 节 






未 修改 的 数据 页 





图 19-4 数据 页 修改 过 程 


说 了 这 么 多 ， 就 是 想 表达 : 在 把 一 条 记录 插入 到 一 个 页 面 时 ， 需 要 更 改 的 地 方 非常 多 。 这 
时 如 果 使 用 前 面 介 绍 的 简单 的 物理 redo 日 志 来 记录 这 些 修改 ， 可 以 有 两 种 解决 方案 。 
e 方案 1: 在 每 个 修改 的 地 方 都 记录 一 条 redo 日 志 。 
也 就 是 在 图 19-4 中 ， 有 多 少 个 加 粗 的 块 ， 就 写 多 少 条 物理 redo 日 志 。 按 照 这 种 方式 来 记 
录 redo 日 志 的 缺点 是 显而易见 的 ， 因 为 被 修改 的 地 方 实在 太 多 了 ， 可 能 redo 日 志 占 用 的 空间 
都 要 比 整个 页 面 占用 的 空间 多 。 
e 方案 2: 将 整个 页 面 第 一 个 被 修改 的 字 节 到 最 后 一 个 被 修改 的 字 节 之 间 所 有 的 数据 当 
成 一 条 物理 redo 日 志 中 的 具体 数据 。 
从 图 19-4 也 可 以 看 出 ， 第 一 个 被 修改 的 字 节 到 最 后 一 个 被 修改 的 字 节 之 间 仍 然 有 许多 没 
有 修改 过 的 数据 ， 把 这 些 没 有 修改 的 数据 也 加 入 到 redo 日 志 中 去 岂 不 是 太 浪 费 空 间 了 。 
正 是 因为 在 使 用 上 面 这 两 个 方案 来 记录 某 个 页 面 中 做 了 哪些 修改 时 ， 比 较 浪费 空间 ， 设 计 
InnoDB 的 大 叔 本 着 勤俭 节约 的 初 心 ， 提 出 了 一 些 新 的 redo 日 志 类 型 。 
e MLOG REC _ INSERT (type 字段 对 应 的 十 进 制 数字 为 9): 表示 在 插入 一 条 使 用 非 紧凑 
行 格式 (REDUNDANT) 的 记录 时 ，redo 日 志 的 类 型 。 
e MLOG COMP REC INSERT (type 字段 对 应 的 十 进 制 数 字 为 38): 表示 在 插入 一 条 使 用 
紧凑 行 格式 (COMPACT、DYNAMIC、COMPRESSED) 的 记录 时 ，redo 日 志 的 类 型 。 
e MLOG COMP PAGE CREATE (type 字段 对 应 的 十 进 制 数字 为 58): 表示 在 创建 一 个 
存储 紧凑 行 格式 记录 的 页 面 时 ，redo 日 志 的 类 型 。 
e MLOG COMP REC DELETE (type 字段 对 应 的 十 进 制 数字 为 42): 表示 在 删除 一 条 
使 用 紧凑 行 格 式 记录 时 ，redo 日 志 的 类 型 。 
e MLOG COMP LIST _ START _ DELETE (type 字段 对 应 的 十 进 制 数字 为 44): 表示 在 从 
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某 条 给 定 记 录 开 始 遇 除 贡 面 中 一 系列 使 用 紧凑 行 格式 的 记录 时 ，redo 日 志 的 类 型 。 

® MLOG COMP LIST END _DELETE (type 字段 对 应 的 十 进 制 数字 为 43): 与 MLOG 
COMF _LIST_START _ DELETE 类 型 的 redo 日 志 呼应 ， 表 示 删 除 一 系列 记录 ， 直 到 
类 型 的 redo 日 志 对 应 的 记录 为 止 。 


前 面 在 踪 中 InnoDB 数据 页 格式 时 重点 强调 过 ， 数 据 页 中 的 记录 按照 索引 列 大 小 :的 
-六 - 顺序 组 成 单 向 链表 . 有 时 ， 我 们 需要 删除 索引 列 的 值 在 某 个 区 间 内 的 所 有 记录 ， 这 时 如 
2 果 每 删除 一 条 记录 就 写 二 条 redo 日 志 ; 效率 可 能 有 点 低 MLOG _COMP LIST_ START 


DELETE 和 MLOG _COMP LIST_END_ DELETE 类 型 的 redo 日 志 可 以 很 大 程度 上 减少 
redo 日 志 的 条 数 . 


® MLOG ZIP_ PAGE_COMPRESS (type 字段 对 应 的 十 进 制 数字 为 51)， 表示 在 压缩 一 -PP 
数据 页 时 ，redo 日 志 的 类 型 。 


还 有 很 多 很 多 种 类 型 ， 这 里 就 不 列举 了 ， 等 用 到 时 再 说 。 
这 些 类 型 的 redo 日 志 既 包含 物理 层面 的 意思 ， 也 包含 逻辑 层面 的 意思 ， 
e 从 物理 层面 看 ， 这 些 日 志 都 指明 了 对 哪个 表 空间 的 哪个 页 进行 修改 ; 
e 从 逻辑 层面 看 ， 在 系统 崩溃 后 重启 时 ， 并 不 能 直接 根据 这 些 日 志 中 的 记载 ， 在 页 面 内 
的 某 个 偏 移 量 处 恢复 某 个 数据 ， 而 是 需要 调用 一 些 事先 准备 好 的 函数 ， 在 执行 完 这 些 
图 数 后 才 可 以 将 页 面 恢复 成 系统 崩溃 前 的 样子 。 
大 家 看 到 这 里 可 能 有 些 慌 ， 我 们 还 是 以 MLOG_COMP_REC INSERT 类 型 的 redo 日志 ( 表 
示 揪 入 了 一 条 使 用 紧凑 行 格式 的 记录 为 例 ， 解 释 一 下 物理 层面 和 逻辑 层面 到 底 是 啥 意思 。 废 
西 分 说 ， 直 接 看 一 下 这 个 MLOG_ COMP REC INSERT 类 型 的 redo 日 志 的 结 直 构 ， 如 图 19-5 所 
未 《 它 的 字段 太 多 了 ， 竖 着 看 效果 会 好 些 )。 z 








小 从 该 字段 可 以 计算 出 当前 记录 总 共 占用 存储 空间 的 大 小 
和、 表示 记录 头 信息 的 前 4 个 比特 (info bits) 的 值 以 及 record type 的 值 
和 |， 记录 的 额外 信息 占用 的 存储 空间 大 小 
二 各 天 为 了 节省 redo 日 志 大 小 而 设立 的 字段 ， 大 家 现在 可 以 忽略 
比 洒 的 真实 数据 | 
图 19-5 MLOG_COMP_REC INSERT 类 型 的 redo 日 志 的 结构 


yl 
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在 这 个 MLOG_COMP REC INSERT 类 型 的 redo 日 志 结构 中 ， 有 下 面 几 个 地 方 需 要 注意 。 

e 前 面 在 啼 嘱 索引 时 说 过 ， 在 一 个 数据 页 中 ， 无 论 是 叶子 节点 还 是 非 叶子 节点 ， 记 录 
都 是 按照 索引 列 的 值 从 小 到 大 的 顺序 排序 的 。 对 于 二 级 索引 来 说 ， 当 索引 列 的 值 相 
同时 ， 记 录 还 需要 按照 主键 值 进行 排序 。 在 图 19-5 中 ，n uniques 的 含义 是 在 一 条 记 
录 中 ， 需 要 几 个 字段 的 值 才能 确保 记录 的 唯一 性 ， 这 样 在 插入 一 条 记录 时 ， 就 可 以 
按照 记录 的 前 n_uniques 个 字段 进行 排序 。 对 于 聚 簇 索引 来 说 ，n_uniques 的 值 为 主 
键 的 列 数 ; 对 于 二 级 索引 来 说 ， 该 值 为 索引 列 中 包含 的 列 数 + 主键 列 数 。 这 里 需要 
注意 的 是 ， 唯 一 二 级 索引 的 值 可 能 为 NULL， 所 以 该 值 仍 然 为 索引 列 中 包含 的 列 数 + 
主键 列 数 。 

e fieldl_len 一 fieldn_len 代表 该 记录 若干 个 字段 占用 存储 空间 的 大 小 。 需 要 注意 的 是 ， 这 里 

无 论 该 字段 的 类 型 是 固定 长 度 类 型 (比如 INT)， 还 是 可 变 长 度 类 型 (比如 VARCHAR(M))， 
该 字段 占用 的 存储 空间 大 小 始终 要 写 入 redo 日 志 中 。 

e offset 代表 该 记录 的 前 一 条 记录 在 页 面 中 的 地 址 。 为 喻 要 记录 前 一 条 记录 的 地 址 呢 ? 这 
是 因为 每 向 数 据 页 插入 一 条 记录 ， 都 需要 修改 该 页 面 中 维护 的 记录 链表 。 每 条 记录 的 
记录 头 信 息 中 都 包含 一 个 名 为 next record 的 属性 ， 所 以 在 插入 新 记录 时 ， 需 要 修改 前 
一 条 记录 的 next record 属性 。 

e 我 们 知道 ， 一 条 记录 其 实 由 额外 信息 和 真实 数据 这 两 部 分 组 成 ， 这 两 个 部 分 的 总 大 小 
就 是 一 条 记录 占用 存储 空间 的 总 大 小 。 通 过 end seg len 的 值 可 以 间接 地 计算 出 一 条 记 
录 占 用 存储 空间 的 总 大 小 ， 为 啥 不 直接 存储 一 条 记录 占用 存储 空间 的 总 大 小 昵 ? 这 是 
因为 写 redo 日 志 是 一 个 非常 频繁 的 操作 ， 设 计 InnoDB 的 大 叔 为 了 减 小 redo 日 志 本 身 
请 用 的 存储 空间 大 小 ， 想 了 一 些 “ 弯 弯 绕 绕 ” 的 算法 来 实现 这 个 目标 。end_seg len 字 
段 就 是 为 了 节省 redo 日 志 存储 空间 而 提出 来 的 。 至 于 设计 InnoDB 的 大 叔 到 底 是 用 了 
什么 神奇 魔法 来 减 小 redo 日 志 的 大 小 ， 这 里 就 不 多 啼 明 了 。 因 为 的 确 有 那么 一 点 点 复 
杂 ， 想 说 清楚 还 是 有 一 点 点 麻烦 的 ， 考 虑 到 阅读 体验 ， 就 不 展开 讲 了 。 

e mismatch_index 也 是 为 了 节省 redo 日 志 的 大 小 而 设立 的 ， 大 家 可 以 忽略 。 

很 显然 ， 这 个 MLOG_COMP REC _ INSERT 类 型 的 redo 日 志 并 没有 记录 PAGE N _DIR_ 
SLOTS、PAGE_HEAP_TOP、PAGE_N_HEAP 等 的 值 被 修改 成 什么 ， 而 只 是 把 在 本 页 面 中 插 
入 一 条 记录 所 有 必 备 的 要 素 记 了 下 来 。 之 后 系统 因 崩 溃 而 重启 后 ， 服 务 器 会 调用 向 某 个 页 面 插 
入 一 条 记录 的 相关 函数 ， 而 redo 日 志 中 的 那些 数据 就 可 以 当成 调用 这 个 函数 所 需 的 参数 。 在 
调用 完 该 函数 后 ， 页 面 中 的 PAGE_N_DIR_SLOTS、PAGE_HEAP TOP、PAGE N HEAP 等 的 
值 也 就 都 被 恢复 到 系统 崩溃 前 的 样子 了 。 这 就 是 “逻辑 层面 ”的 意思 。 


19.3.3 redo 日 志 格 式 小 结 


前 面 说 了 一 大 堆 关 于 redo 日 志 格 式 的 内 容 ， 如 果 不 是 为 了 编写 一 个 解析 redo 日 志 的 工具 ， 
或 者 自己 开发 一 套 redo 日 志 系统 ， 其 实 没 必要 把 InnoDB 中 各 种 类 型 的 redo 日 志 格 式 都 研究 
得 透 透 的 。 前 面 只 是 象征 性 地 介绍 了 几 种 类 型 的 redo 日 志 格式 ， 目 的 还 是 想 让 大 家 明白 : redo 
日 志 会 把 事务 在 执行 过 程 中 对 数据 库 所 做 的 所 有 修改 都 记录 下 来 ， 在 之 后 系统 因 崩 溃 而 重启 后 
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可 以 把 事务 所 做 的 任何 修改 都 恢复 过 来 。 


注 。 为 了 他 md 日志 占用 的 在 人 本 间 关 2 二 计 记 二 下 
四 玉生 六 所 进行 了 压 纺 刘 理 比如 ，space ID 和 page number 一 般 占 用 4 字 节 来 存储 但， 
“是 经 过 压缩 后 可 以 使 用 要 小 的 空间 来 存储 ,具体 压 缩 算法 就 不 路 功 了 。 0 


BE 
19.4 Mini-Transactio 


\ 19.4.1 以 组 的 形式 写 入 redo 日 志 


语句 在 执行 过 程 中 可 能 会 修改 若干 个 页 面 。 比如 我 们 前 面 说 的 一 条 INSERT 语句 可 能 修 
改 系统 表 空 间 页 号 为 7 的 页 面 的 Max Row ID 属性 (当然 也 可 能 更 新 别 的 系统 页 面 ， 只 不 过 


没有 都 列 举 出 来 而 已 )， 还 会 更 新 聚 能 索引 和 二 级 索引 对 应 的 B+ 树 中 的 页 面 。 由 于 对 这 些 
外 面 的 更 改 都 发 生 在 Buffer Pobl 中 ， 所 以 在 修改 完 页 面 之 后 ， 需 要 记录 相应 的 redo 日 志 。 
z 在 执行 语句 的 过 程 中 产生 的 redb 日 志 ， 被 设计 InnoDB 的 大 直人 为 划分 成 了 若干 个 不 可 分 
] 的 组 ， 比 如 : 

e。 更 新 Max Row ID 属性 时 产生 的 redo 日 志 为 一 组 ， 是 不 可 分 割 的 ; 


® 疝 聚 簇 索 引 对 应 B+ 树 的 页 面 中 插入 一 条 记录 时 产生 的 redo 日 志 是 一 组 ， 是 不 可 分 


割 的 ; 
。 门 某 个 二 级 索引 对 应 B+ 树 的 页 面 中 插入 一 条 记录 时 产生 的 redo 日 志 是 一 组 ， 是 不 可 
分 割 的 ; 
e 还 有 其 他 的 一 些 不 可 分 割 的 组 。 
怎么 理解 这 个 “不 可 分 割 ” 的 意思 呢 ? 我 们 以 向 某 个 索引 对 应 的 B+ 树 中 插入 一 条 记录 为 
例 进行 解释 。 在 向 B+ 树 中 插入 这 条 记录 之 前 ， 需 要 先 定位 这 条 记录 应 该 被 插入 到 哪个 叶子 节 
点 代表 的 数据 页 中 。 在 定位 到 具体 的 数据 页 之 后 ， 有 两 种 可 能 的 情况 。 


e 情况 1: 该 数据 页 剩余 的 空闲 空间 相当 充足 ， 足够 容纳 这 一 条 待 插入 记录 。 这 样 一 来 ， 
事情 很 简单 ， 直 接 把 记录 插入 到 这 个 数据 页 中 ， 然后 记录 一 条 MLOG COMP REC 
INSERT 类 型 的 redo 日 志 就 好 了 。 这 种 情况 称 为 乐观 插入 。 

假如 某 个 索引 对 应 的 B+ 树 如 图 19-6 所 示 ， 现在 要 插入 一 条 键 值 为 10 的 记录 ， 很 显然 需 

要 被 插入 到 页 b 中 。 由 于 页 b 现在 有 足够 的 空间 容纳 一 条 记录 ， 所 以 直接 将 该 记录 插入 到 页 b 
中 就 好 了 ， 结 果 如 图 19-7 所 示 。 

® 情况 2， 该 数据 页 剩余 的 空闲 空间 不 足 ， 那 么 事情 就 “悲剧 ”了 。 我 们 前 面 说 过 ， 遇 

到 这 种 情况 时 要 进行 页 裂 操 作 ， 也 就 是 新 建 一 个 叶子 节点 ， 把 原先 数据 页 中 的 一 部 
| 分 记录 复制 到 这 个 新 的 数据 页 中 ， 然 后 再 把 记录 插入 进去 ， 再 把 这 个 叶子 节点 插入 到 
叶子 节点 链表 中 ， 最 后 i 要 在 内 节点 中 添加 一 条 目录 项 记录 来 指向 这 个 新 创建 的 页 面 。 
| 很 显然 ， 这 个 过 程 需 要 对 多 个 页 面 进行 修改 ， 这 意味 着 会 产生 多 条 redo 日 志 。 这 种 情 


况 称 为 悲观 插入 。 


Pe yy 了 
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图 19-7 乐观 插入 过 程 


假如 某 个 索引 对 应 的 B+ 树 如 图 19-8 所 示 ， 现 在 要 插入 一 条 键 值 为 10 的 记录 ， 很 显然 需 
要 插入 到 页 b 中 。 但 是 从 图 19-8 可 以 看 出 ， 此 时 页 b 已 经 塞 满 了 记录 ， 没 有 更 多 的 空闲 空间 
来 容纳 这 条 新 记录 ， 所 以 需要 进行 页 面 的 分 型 操作 ， 如 图 19-9 所 示 。 

如 果 作 为 内 节点 的 页 a 的 剩余 空闲 空间 也 不 足以 容纳 新 增 的 一 条 目录 项 记录 ， 则 需要 继 
续 对 内 节点 页 a 进行 分 裂 操 作 ， 这 也 就 意味 着 会 修改 更 多 的 页 面 ， 从 而 产生 更 多 的 redo 日 志 。 
另外 ， 对 于 翡 观 插入 来 说 ， 由 于 需要 新 申请 数据 页 ， 因 此 还 需要 改动 一 些 系 统 页 面 。 比 如 要 修 
改 各 种 段 、 区 的 统计 信息 ， 修 改 各 种 链表 的 统计 信息 等 〈 比 如 FREE 链表 、FREE FRAG 链表 
等 )， 反 正 总 共和 需要 记录 的 redo 日 志 有 二 三 十 条 。 


bs 其实， 不 光 是 在 起 观 插入 一 条 记录 时 会 生成 许多 条 red6 日 志 ， 设计 IhnoDB 的 大 版 
9: 为 了 其 他 的 一 些 功能 ， 作 折 入 时 也 可 能 生成 多 优生 日 志 ( 受 要 限 于 篇 幅 ， 具 体 是 
小 贴 士 .为 了 什么 功能 就 不 多 说 了 ). 
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19-9 ”悲观 插入 过 程 


设计 InnoDB 的 大 叔 认 为 ， 向 某 个 索引 对 应 的 B+ 树 中 插入 一 条 记录 的 过 程 必 须 是 原子 的 ， 
不 能 说 插 了 一 半 之 后 就 停止 了 。 比 如 在 翡 观 插入 过 程 中 ， 新 的 页 面 已 经 分 配 好 了 ， 数 据 也 复制 
过 去 了 ， 新 的 记录 也 插入 到 页 面 中 了 ， 但 是 没有 向 内 节点 中 插入 一 条 目录 项 记录 。 那 么 ， 这 个 
插入 过 程 就 是 不 完整 的 ， 这 就 会 形成 一 棵 不 正确 的 B+ 树 。 

我 们 知道 ，redo 日 志 是 为 了 在 系统 因 崩 省 而 重启 时 恢复 崩溃 前 的 状态 而 提出 的 ， 如 果 在 
坊 观 插入 的 过 程 中 只 记录 了 一 部 分 redo 日 志 ， 那 么 在 系统 在 重启 时 会 将 索引 对 应 的 B+ 树 恢复 
成 一 种 不 正确 的 状态 。 这 是 设计 InnoDB 的 大 叔 所 不 能 忍受 的 ， 所 以 他 们 规定 在 执行 这 些 需 要 


| 4 
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保证 原子 性 的 操作 时 ， 必 须 以 组 的 形式 来 记录 redo 日 志 。 在 进行 恢复 时 ， 针 对 某 个 组 中 的 
redo 日 志 ， 要 么 把 全 部 的 日 志 都 恢复 ， 要 么 一 条 也 不 恢复 。 这 是 怎么 做 到 的 呢 ? 这 得 分 情况 
讨论 。 

e 有 些 需 要 保证 原子 性 的 操作 会 生成 多 条 redo 日 志 。 比 如 向 某 个 索引 对 应 的 B+ 树 中 进 

行 一 次 悲观 插入 时 ， 就 需要 生成 许多 条 redo 日 志 。 

如 何 把 这 些 redo 日 志 划 分 到 一 个 组 里 面 呢 ? 设计 InnoDB 的 大 叔 摘 了 一 个 很 简单 的 “小 把 
戏 ” 一 一 在 该 组 中 的 最 后 一 条 redo 日 志 后 面 加 上 一 条 特殊 类 型 的 redo 日 志 。 该 类 型 的 redo 日 
志 的 名 称 为 MLOG MULTI REC_ END， 结 构 很 简单 ， 只 有 一 个 type 字段 〈 对 应 的 十 进 制 数字 
为 31) ， 如 图 19-10 所 示 。 





19-10 MLOG MULTI REC END 类 型 的 redo 日 志 


所 以 ， 某 个 需要 保证 原子 性 的 操作 所 产生 的 一 系列 redo 日 志 ， 必 须 以 一 条 类 型 为 MLOG _ 
MULTI REC_END 的 redo 日 志 结尾 ， 如 图 19-11 所 示 。 





这 是 几 条 普通 类 型 的 redo 日 志 类 型 为 MLOG_MULTI_REC_END 的 redo 日 志 





整个 是 一 组 完整 的 redo 日 志 
图 19-11 以 MLOG MULTI REC END 类 型 的 redo 日 志 结 尾 的 一 组 redo 日 志 


这 样 在 系统 因 崩 省 而 重启 恢复 时 ， 只 有 解析 到 类 型 为 MLOG MULTI REC END 的 redo 
日 志 时 ， 才 认为 解析 到 了 一 组 完整 的 redo 日 志 ， 才 会 进行 恢复 ; 否则 直接 放弃 前 面 解 析 到 的 
redo 日 志 。 

e 有 些 需 要 保证 原子 性 的 操作 只 生成 一 条 redo 日 志 。 比 如 更 新 Max Row ID 属性 的 操作 

就 只 会 生成 一 条 redo 日 志 。 

其 实在 一 条 日 志 后 面 跟 一 个 MLOG _ MULTI REC END 类 型 的 redo 日 志 也 是 可 以 的 ， 不 
过 设计 InnoDB 的 大 叔 比 较 勤 俭 节约 ， 他 们 不 想 浪费 每 一 个 比特 。 虽 然 redo 日 志 的 类 型 比较 多 ， 
但 撑 死 了 也 就 是 几 十 种 ， 是 小 于 127 的 。 也 就 是 说 ， 我 们 用 7 个 比特 就 足以 包括 所 有 的 redo 
日 志 类 型 ， 而 type 字段 其 实 占用 了 1 字 节 ， 也 就 是 说 可 以 省 出 来 一 个 比特 ， 用 来 表示 这 个 需 
要 保证 原子 性 的 操作 只 产生 一 条 单一 的 redo 日 志 ， 示 意图 如 图 19-12 所 示 。 


type 字 段 占用 8 个 比特 
A A = - 





网 和 才 : a Re y | > 。 过 总 | 
这 1 个 比 转 代 表 是 否 是 条 单一 的 日 志 这 7 个 比特 代表 redo 日 志 的 类 型 
图 19-12 type 字段 的 作用 划分 


一 
Te 
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如 果 type 字段 的 第 1 个 比特 为 1， 代表 这 个 需要 保证 原子 性 的 操作 只 产生 了 一 条 单一 的 
redo 日 志 ; 否则 就 表示 这 个 需要 各 证 原子 性 的 操作 产生 了 一 系列 的 redo 日 志 。 


19.4.2 Mini-Transaction 的 概念 


设计 MySQL 的 大 权 把 对 底层 页 面 进行 一 次 原子 访 问 的 过 程 称 为 一 个 Mini-Transaction 
(MTR )。 性 帮 说 的 入 该 | 次 Max Row ID 的 值 算 是 一 个 Mini-Transaction， 向 某 个 索引 
对 应 的 B+ 树 中 插入 一 条 记录 的 过 程 也 算是 一 个 Mini-Transaction 。 通过 前 面 的 叙述 我 们 也 知 
道 ， 一 个 MTR 可 以 包含 一 组 redo 日 志 ， 在 进行 崩溃 恢复 时 ， 需 要 把 这 一 组 redo 日 志 作 为 一 
个 不 可 分 割 的 整体 来 处 理 。 

一 个 事务 可 以 包含 若干 条 语句 ， 每 一 条 语句 又 包含 若干 个 MTR， 每 一 个 MTR 又 可 以 包 
合 右 干 条 redo 日 志 。 我 们 画 个 图 来 表示 它们 的 关系 〈 见 图 19-13)。 


| 


redo 1 
redo 2 
mtr 1 
mtr 1 redo n 
| 语句 1 
mtr n 
语句 2 
务 
语句 n 


图 19-13 务 、 语 句 、MTR、redo 日 志 之 间 的 关系 
19.5 redo 起 的 写 入 过 各 


19.5.1 redo log block 


为 了 更 好 地 管理 redo 日 志 ， i InnoDB 的 大 叔 把 通过 MTR 生成 的 redo 日 志 都 放 在 了 大 
小 为 512 字 节 的 页 中 。 为 了 与 前 文 提 到 的 表 空 间 中 的 页 进行 区 别 ， 我 们 这 里 把 用 来 存储 redo 
日 志 的 页 称 为 block〈( 大 家 心里 清楚 “页 ”和 “block” 的 意思 其 实 差不多 就 行 了 )。 一 ~ redo 
log block 的 示意 图 如 图 19-14 所 示 ， 

真正 的 redo 日 志 都 是 存储 到 占用 496 字 节 的 log block body 中 ， 图 19-14 中 的 log block header 
和 log block trailer 存储 的 是 一 些 管理 信息 。 我 们 来 看 看 这 些 管理 信息 都 是 哈 ( 见 图 19-15)。 


| 


| 
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redo log block 结 构 


总 共 是 512B 4 496 字 节 





$512B 
图 19-14 redo log block 的 示意 图 





如 4 字 节 
4B 0G BLO rw 
车 4 A \ -NN | 2 字 节 
6B Fas 2 a 
Ue :FE ;BLOCK wk er EGGROUP | > 2 字 节 
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图 19-15 ”log block header 和 log block trailer 存储 的 管理 信息 


其 中 ，log block header 中 几 个 属性 的 意思 分 别 如 下 。 


LOG_BLOCK _HDR _NO : 每 一 个 block 都 有 一 个 大 于 0 的 唯一 编号 ， 该 属性 就 表示 该 
编号 值 。 

LOG BLOCK HDR _DATA _ LEN : 表示 block 中 已 经 使 用 了 多 少 字 节 ; 初始 值 为 12 (因为 
log block body 从 第 12 个 字 节 处 开始 )。 随 着 往 block 中 写 入 的 redo 日 志 越 来 越 多 ， 该 属性 
值 也 跟着 增长 。 如 果 log block body 已 经 被 全 部 写 满 ， 那 么 该 属性 的 值 被 设置 为 512。 

LOG BLOCK FIRST REC GROUP : 一 条 redo 日 志 也 可 以 称 为 一 条 redo 日 志 记 录 (redo 
log record)。 一 个 MTR 会 生成 多 条 redo 日 志 记 录 ， 这 个 MTR 生成 的 这 些 redo 日 志 记 录 被 
称 为 一 个 redo 日 志 记 录 组 (redo log record group)。LOG BLOCK FIRST REC GROUP 就 
代表 该 block 中 第 一 个 MTR 生成 的 redo 日 志 记 录 组 的 偏 移 量 ， 其 实 也 就 是 这 个 block 中 第 
一 个 MTR 生成 的 第 一 条 redo 日 志 记 录 的 偏 移 量 (如果 一 个 MTR 生成 的 redo 日 志 横 跨 了 
好 多 个 block， 那 么 最 后 一 个 block 中 的 LOG BLOCK FIRST REC GROUP 属性 就 表示 这 
个 MTR 对 应 的 redo 日 志 结 束 的 地 方 ， 也 就 是 下 一 个 MTR 生成 的 redo 日 志 开始 的 地 方 )。 
LOG_BLOCK_ CHECKPOINT_ NO : 表示 checkpoint 的 序号 ; checkpoint 是 后 续 内 容 的 
重点 ， 现 在 先 不 用 清楚 它 的 意思 ， 少 安 母 躁 。 


log block trailer 中 属性 的 意思 如 下 。 
e LOG BLOCK CHECKSUM : 表示 该 block 的 校 验 值 ， 用 于 正确 性 校 验 ， 暂 时 不 用 关心 它 


19.5.2 redo 日 志 缓 冲 区 
前 文 说 过 ， 设 计 InnoDB 的 大 叔 为 了 解决 磁盘 速度 过 慢 的 问题 而 引入 了 Buffer Pool。 同 理 ， 





| 
| 
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| 
写 入 redo 日 志 时 也 不 能 直接 写 到 磁盘 中 ， 实 际 上 在 服务 器 启动 时 就 向 操作 系统 申请 了 一 大 片 


称 为 redo log buffer (redo 日 志 缓冲 区 ) 的 连续 内 存 空 间 ， 也 可 以 将 其 简称 为 log buffer。 这 片 
内 存 空 间 被 划分 成 若干 个 连续 的 redo log block， 如 图 19-16 所 示 。 





内 存 中 的 若干 个 连续 的 redo log block 
19-16 log buffer 结构 示意 图 


我 们 可 以 通过 启动 选项 woh je boil jin 来 指定 log buffer 的 大 小 


。 在 MySQL 5.7.22 
版 本 中 ， 该 启动 选项 的 默认 值 为 16MB。 


19.5.3 redo 日 志 写 入 lpg buffer 


向 log buffer 中 写 入 redo 日 志 的 过 程 是 顺序 写 入 的 ， 也 就 是 先 往 前 面 的 block 中 写 ， 当 该 
block 的 空闲 空间 用 完 之 后 再 往 下 一 个 block 中 写 。 当 想 往 log buffer 中 写 入 redo 日 志 时 ， 遇 到 
的 第 一 个 问题 就 是 ， 应 该 写 在 哪个 block 的 哪个 偏 移 量 处 。 设 计 InnoDB 的 大 叔 特意 提供 了 一 


个 称 为 bnf free 的 全 局 变量 ， 该 变量 指明 后 续 写 入 的 redo 日 志 应 该 写 到 log buffer 中 的 哪个 位 
置 ， 如 图 19-17 所 示 。 | 


YY 






7 Ni 


一 一 一 





log block waller 


图 19-17 redo 日 志 写 入 log buffer 


我 们 前 面 说 过 ， 一 个 MTR 执行 过 程 中 可 能 产生 者 干 条 redo 日 志 ， 这 些 redo 日 志 是 一 


SS 
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个 不 可 分 割 的 组 ， 所 以 并 不 是 每 生成 一 条 redo 日 志 就 将 其 插入 到 log buffer 中 ， 而 是 将 每 个 
MTR 运行 过 程 中 产生 的 日 志 先 暂时 存 到 一 个 地 方 ; 当 该 MTR 结束 的 时 候 ， 再 将 过 程 中 产生 
的 一 组 redo 日 志 全 部 复制 到 log buffer 中 。 现 在 假设 有 名 为 T1、T2 的 两 个 事务 ， 每 个 事务 都 
包含 2 个 MTR， 这 几 个 MTR 的 名 字 如 下 : 
e 事务 Tl 的 两 个 MTR 分 别称 为 mtr tlL_1 和 mtr tl_2; 
e 事务 T2 的 两 个 MTR 分 别称 为 mtr 2_1 和 mtr t_2。 
每 个 MTR 都 会 产生 一 组 redo 上 日志， 我们 用 示意 图 来 描述 一 下 这 些 MTR 产生 的 日 志 ( 见 


图 19-18 ) 。 
事务 T2 的 MTR 


事务 T1 的 MTR 


mtr tl 1 产生 的 一 组 redo 日 志 : mtr 世 1 产生 的 一 组 redo 日 志 : 





mtr tl 2 产生 的 一 组 redo 日 志 : mtr 忆 2 产生 的 一 组 redo 日 志 : 





图 19-18 事务 Tl 和 TT2 的 各 个 MTR 产生 的 redo 日 志 


不 同 的 事务 是 可 能 并 发 执行 的 ， 所 以 T1、T2 的 MTR 可 能 是 交 蔡 执行 的 。 每 当 一 个 MTR 
执行 完成 时 ， 伴 随 该 MTR 生成 的 一 组 redo 日 志 就 需要 被 复制 到 log buffer 中 。 也 就 是 说 不 同 
事务 的 MTR 对 应 的 redo 日 志 可 能 是 交 蔡 写 入 log buffer 的 ， 我 们 画 个 示意 图 ， 如 图 19-19 所 
示 《〈 为 了 美观 ， 我 们 把 一 个 MTR 中 产生 的 所 有 redo 日 志 当 作 一 个 整体 )。 


Ls dd yd 
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图 19-19 logbuffer 结构 示意 图 
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从 图 19-19 可 以 看 出 ， 不 同 的 MTR 产生 的 一 组 redo 日 志 占 用 的 存储 空间 可 能 不 一 样 ， 有 
的 MTR 产生 的 redo 日 志 量 很 少 ， 比 如 mtr tl]_1、mtr {2 1 产生 的 redo 日 志 就 被 放 到 同一 个 


block 中 存储 ; 有 的 MTR 产生 的 redo 日 志 量 非常 大 ， 比 如 mtr tl 2 产生 的 redo 日 志 甚至 占用 
了 3 个 block 来 存储 。 | 


19.6 ”redo 日 志文 件 


19.6.1 redo 日 志 刷 盘 时 机 


前 面 说 过 ，MTR 运行 过 程 中 产生 的 一 组 redo 日 志 在 MTR 结束 时 会 被 复制 到 log buffer 中 。 
中 下 这 举 日 志 总 在 内 存 里 待 着 也 不 是 个 办 法 ， 在 一 些 情况 下 它们 会 被 刷新 到 磁盘 中 。 来 看 下 面 
这 些 例子 。 

e log buffer 空间 不 足 时 。 | 

log buffer 的 大 小 是 有 限 的 〔 通 过 系统 变量 innodb_log_buffer size 指定 )， 如 果 不 停 地 向 这 个 有 
限 大 小 的 log buffer 中 塞 入 日 志 ， 很 快 就 会 将 它 填 满 。 设 计 InnoDB 的 大 叔 认为 ， 如 果 当 前 写 入 log 
buffer 的 redo 日 志 量 已 经 占 满 了 Iog buffer 总 容量 的 50% 左右 ， 就 需要 把 这 些 日 志 刷 新 到 磁盘 中 。 

e 事务 提交 时 。 

可 面 说 过 ， 之 所 以 提出 redo 日 志 的 概念 ， 主 要 是 因为 它 占用 的 空间 少 ， 而 且 可 以 将 其 顺 
序 写 入 磁盘 。 引 入 redo 日 志 后 ， 然 在 事务 提交 时 可 以 不 把 修改 过 的 Buffer Pool 页 面 立 即 刷 
浙 到 磁盘 ， 但 是 为 了 保证 持久 性 ， 必 须要 把 页 面 修改 时 所 对 应 的 redo 日 志 刷 新 到 磁盘 ， 否 则 
系统 崩溃 后 ， 无 法 将 该 事务 对 页 面 所 做 的 修改 恢复 过 来 。 

。 后 台 有 一 个 线程 ， 大 约 以 每 秒 一 次 的 频率 将 log buffer 中 的 redo 日 志 刷 新 到 磁盘 

e 正常 关闭 服务 器 时 。 | 


。 做 checkpoint 时 《〈 现 在 还 没 介绍 checkpoint 的 概念 ， 稍 后 会 仔细 嘴 胃 ， 少 安 组 躁 )， 
19.6.2 redo 日 志文 件 组 


MySQL 的 数据 目录 (使 用 SHOW VARIABLES LIKE 'datadir 命令 查看 ) 下 默认 有 名 为 
ib_logfile0 和 ib_logfilel 的 两 个 文件 ，log buffer 中 的 日 志 在 默认 情况 下 就 是 刷新 到 这 两 个 磁盘 
文件 中 。 如 果 对 默认 的 redo 日 志文 件 不 满意 ， 可 以 通过 下 面 几 个 启动 选项 来 调节 。 

® Innodb log_group_home _dir : 指定 了 redo 日 志文 件 所 在 的 目录 ， 默认 值 就 是 当前 的 数 

据 目 录 。 
9 innodb_log_file_size : 指定 了 每 个 redo 日 志文 件 的 大 小 ， 在 MySQL 5.7.22 版 本 中 的 默 
认 值 为 48MB。 
9 innodb log files_ in group : 指定 了 redo 日 志文 件 的 个 数 ， 默 认 值 为 2， 最 大 值 为 100。 
从 上 面 的 描述 中 可 以 看 到 ， 磁 盘 上 的 redo 日 志文 件 不 止 一 个 ， 而 是 以 一 个 日 志文 件 组 


的 形式 出 现 的 。 这 些 文件 以 <ib 1 gfile[ 数字 ] ” (数字 可 以 是 0、1、2..) 的 形式 进行 命名 。 
在 将 redo 志 写 入 日 志文 件 组 时 ,| 从 让 -各 eo 开始 写 起 ; 如 果 ib logfile0 写 满 了 ， 就 接着 


| = 
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ib logfilel 写 ， 同 理 ，ib logfilel 写 满 了 就 去 写 ib_logfle2; 依 此 类 推 。 如 果 写 到 最 后 一 个 文件 。 
时 发 现 写 满 了 ， 该 咋 办 ? 那 就 重新 转 到 ib logfile0 继续 写 。 整 个 过 程 如 图 19-20 所 示 。 z 





19-20 redo 日 志文 件 组 示意 图 


redo 日 志文 件 的 总 大 小 其 实 就 是 innodb log file size x innodb log fles in group。 


人 如 果 采 用 循环 的 方式 向 Tedo 日 志文 件 组 中 写 数据 的 话 ， 那 岂 不 是 要 “追尾 ”3 也 就 
J、 是 后 写 入 的 redo 日 志 将 履 盖 掉 前 面 写 的 redo 日志。 当然 可 能 这 样 ! 所 以 设计 InnoDB 
小 贴 士 “的 夫 叔 提出 了 checkpoint 的 概念 ， 稍 后 我 们 重点 嘴 四 . 


19.6.3 redo 日 志文 件 格式 


前 面 说 过 ，log buffer 本 质 上 是 一 片 连续 的 内 存 空 间 ， 被 划分 成 若干 个 512 字 节 大 小 的 : 
block。 将 log buffer 中 的 redo 日 志 刷 新 到 磁盘 的 本 质 就 是 把 block 的 镜像 写 入 日 志文 件 中 ， 所 
以 redo 日 志文 件 其 实 也 是 由 若干 个 512 字 节 大 小 的 block 组 成 。 
在 redo 日 志文 件 组 中 ， 每 个 文件 的 大 小 都 一 样 ， 格 式 也 一 样 ， 都 是 由 下 面 两 部 分 组 成 的 : 
e@ 前 2,048 个 字 节 (也 就 是 前 4 个 block〉 用 来 存储 一 些 管理 信息 ; 
e@ 从 第 2,048 字 节 往 后 的 字 节 用 来 存储 log buffer 中 的 block 镜像 。 
所 以 前 面 所 说 的 循环 使 用 redo 日 志文 件 ， 其 实 是 从 每 个 日 志文 件 的 前 2,048 个 字 节 开始 算 
起 ， 如 图 19-21 所 示 。 





也 logfilen: 


19-21 redo 日 志文 件 组 示意 图 


普通 block 的 格式 已 经 在 啼 明 log buffer 的 时 候 都 说 过 了 ， 就 是 log block header、log block 
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body、log block trailer 这 三 个 部 分 ， 就 不 重复 介绍 了 。 这 里 需要 介绍 每 个 redo 日 志文 件 的 前 
2,048 个 字 节 (也 就 是 前 4 个 特殊 block) 的 格式 都 是 干 嘛 的 ， 如 图 19-22 所 示 。 
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图 19:22 ”redo 日 志文 件 前 4 个 block 示意 图 


从 图 19-22 可 以 看 出 ， 这 4 个 block 分 别 如 下 。 
e log file header : 描述 该 redo 日 志文 件 的 一 些 整体 属性 ， 结 构 如 图 19-23 所 示 。 
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log file header 结构 中 各 个 属性 的 具体 含义 如 表 19-1 所 示 。 


表 19-1 “log file header 各 属性 的 具体 含义 


LOG HEADER FORMAT | redo 日 志 的 版 本 ， 在 MySQL 5.7.22 中 永远 为 1 
LOG HEADER _PADIl | 下 光洁 用 于 字 节 填充 ， 没 什么 实际 意义 


标记 本 redo 日 志文 件 偏 移 量 为 2.048 字 节 处 对 应 的 lsn 
i 加 值 ( 稍 后 会 介绍 什么 是 lsn， 看 不 懂 的 先 忽略 》 


一 个 字符 串 ， 标 记 本 redo 日 志文 件 的 创建 者 是 谁 。 正 党 

运行 时 该 值 为 MySQL 的 版 本 号 (比如 “SQL 5.7.22” ); 

LOG_HEADER_CREATOR 在 使 用 mysqlbackup 命令 创建 redo 日 志文 件 时 ， 该 值 为 
| “ibbackup” 和 创建 时 间 


LOG BLOCK_CHECKSUM 1 3 本 block 的 校 验 值 ， 所 有 block 都 有 该 值 ， 我 们 不 用 关心 
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"时 Se 和 属 | de 些 出 入 ,不 要 慌 ， 常 现 ; 
小 贴 士 “版 本 吧 。 另外 ， 我 们 后 文才 会 介绍 LSN; 现在 千 万 别 纪 结 LSN | 是 只 . 
e@e checkpoint1: 记录 关于 checkpoint 的 一 些 属性 ， 结 构 如 图 19-24 所 示 。 
redo 日 志文 件 前 4 个 block 示 意图 
图 19-24 ”checkpointl 的 结构 
checkpointl 结构 中 各 个 属性 的 具体 含义 如 表 19-2 所 示 。 
表 19-2 checkpoint 各 属性 的 具体 含义 
属性 名 长 度 ( 字 节 ) 描述 
LOG CHE INT NO 服务 器 执行 checkpoint 的 编号 ， 每 执行 一 次 checkpoint， 
RN 该 值 就 加 1 
服务 器 在 结束 checkpoint 时 对 应 的 lsn 值 ， 系 统 在 
和 | 贿 溃 后 恢复 时 将 从 该 值 开始 
LOG CHECKPOINT OFFSET | 上 个 属性 中 的 Isn 值 在 redo 日 志文 件 组 中 的 偏 移 量 
gt 法 于 服务 器 在 执行 checkpoint 扫 作 时 对 庙 的 log buffer 
i | i 的 校 验 值 ， 所 有 block 都 有 该 值 ， 我 们 不 | 


Nr 


门 会 外 于 细 路 切 . 人 我 是 想 
» 性 混 个 脸 熟 ，) 面 会 详细 路 马 的 。， 


3 全 re er- AAA 
:> Bs es 


e@ 第 三 个 block 未 使 用 ， 忽 略 。 
@ checkpoint2: 结构 与 checkpointl 一 样 。 


了 中 checkpoint 的 相关 信息 其 实 只 存储 在 redo 日 志文 件 给 的 第 一 个 日 志文 件 中 ， 
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19./ log sequence number 


目 系统 开始 运行 ， 就 在 不 断 地 修改 页 面 ， 这 也 就 意味 着 会 不 断 地 生成 redo 日 志 。redo 日 
志 的 量 在 不 断 递 增 。 就 像 人 的 年 龄 一 样 ， 自 打出 生 之 日 起 就 不 断 递 增 ， 永 远 不 可 能 缩减 。 设 计 
InnoDB 的 大 叔 设 计 了 一 个 名 为 lsn (log sequence number) 的 全 局 变量 ， 用 来 记录 当前 总 共 已 
经 写 入 的 redo 日 志 量 。 不 过 ， 与 人 刚 出 生 时 的 年 龄 是 0 岁 不 同 ， 设 计 InnoDB 的 大 叔 规定 初始 
的 lsn 值 为 8,704〈 也 就 是 一 条 redo 日 志 也 没 写 入 时 ，lsn 的 值 就 是 8,704 )。 

我 们 知道 ， 在 向 log buffer 中 写 入 redo 日 志 时 并 不 是 一 条 一 条 写 入 的 ， 而 是 以 MTR 生成 
的 一 组 redo 日 志 为 单位 写 入 的 ， 而 且 实际 上 是 把 日 志 内 容 写 在 了 log blockbody 处 。 但 是 在 统 
计 lsn 的 增长 量 时 ， 是 按照 实际 写 入 的 日 志 量 加 上 占用 的 log block header 和 log block trailer 来 
计算 的 。 我 们 来 看 一 个 例子 。 

系统 第 一 次 启动 后 ， 在 初始 化 log buffer 时 ，buf free( 用 来 标记 下 一 条 redo 日 志 应 该 写 


入 到 log buffer 的 位 置 ) 就 会 指向 第 一 个 block 的 偏 移 量 为 12 字 节 (log block header 的 大 小 ) 
的 地 方 ，lsn 值 也 会 跟着 增加 12， 如 图 19-25 所 示 。 






buf free 位 置 


log block header | log block header | log block header | log block header 





log block body 


lop block tralier 





Morblook walt lor block wailler® (og blocK traller: “lop block trailer 


图 19-25 初始 时 log buffer 结构 示意 图 


如 果菜 个 MTR 产生 的 一 组 redo 日 志 占 用 的 存储 空间 比较 小 ， 也 就 是 待 插入 的 block 剩余 
空闲 空间 能 容纳 这 个 MTR 提交 的 日 志 时 ，lsn 增长 的 量 就 是 该 MTR 生成 的 redo 日 志 占用 的 字 
节 数 ， 如 图 19-26 所 示 。 


lomblociotralcrs Mopblock traller lor block tratie! 





19-26 将 mtr 1 生成 的 redo 日 志 写 入 log buffer 后 ，log buffer 结构 示意 图 


] 
假设 图 19-26 中 mtr 1 产生 的 redo 日 志 量 为 200 字 节 ， 那 么 lsn 就 要 在 8,716 的 基础 上 增 
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加 200， 变 为 8,916。 

如 果 某 个 MTR 产生 的 一 组 redo 日 志 占 用 的 存储 空间 比较 大 ， 待 插入 的 block 剩余 空闲 空 
间 不 足以 容纳 这 个 MTR 生成 的 日 志 ，lsn 增长 的 量 就 是 该 MTR 生成 的 redo 日 志 占 用 的 字 节 数 
加 上 额外 占用 的 log block header 和 log block trailer 的 字 节 数 ， 如 图 19-27 所 示 。 





log buffer 结 构 示 意图 





buf free 位 置 
图 19-27 将 mtr 2 生成 的 redo 日 志 写 入 log buffer 后 ，log buffer 结构 示意 图 


假设 图 19-27 中 mtr 2 产生 的 redo 日 志 量 为 1,000 字 节 ， 为 了 将 mtr 2 产生 的 redo 日 志 写 
入 log buffer， 我 们 不 得 不 额外 多 分 配 两 个 block， 所 以 Jsn 的 值 需要 在 8,916 的 基础 上 增加 1.000 + 
12 x2+4x2=1,032 字 节 。 


~ “为 什么 初始 的 1sn 值 为 8,704 呢 ? 我 也 不 术 清 楚 ， 人 家 就 这 么 规定 的 : 其实 你 
9. 也 可 以 规定 你 刚 生 下 来 时 算 1 岁 ， 只 要 保证 随 着 时 间 的 流逝 ， 你 的 年 龄 不 断 增 长 就 
小 贴 十 ”好 了 . 


从 前 面 的 描述 中 可 以 看 出 ，lsn 值 为 8,716 时 对 应 mtr 1 产生 的 redo 日 志 ，lsn 值 为 8.916 
时 对 应 mtr 2 产生 的 redo 日 志 。 也 就 是 说 ， 每 一 组 由 MTR 生成 的 redo 日 志 都 有 一 个 唯一 的 
lsn 值 与 其 对 应 ; lsn 值 越 小 ， 说 明 redo 日 志 产 生得 越 早 。 这 个 结论 比较 重要 ， 希 望 大 家 牢记 。 


19.7.1 flushed to disk lsn 


redo 日 志 是 先 写 到 log buffer 中 ， 之 后 才 会 被 刷新 到 磁盘 的 redo 日 志文 件 中 。 所 以 设计 
InnoDB 的 大 叔 提出 了 一 个 名 为 buf_next to_write 的 全 局 变量 ， 用 来 标记 当前 log buffer 中 已 经 
有 哪些 日 志 被 刷新 到 磁盘 中 了 ， 如 图 19-28 所 示 。 

前 面 说 过 ，lsn 表示 当前 系统 中 写 入 的 redo 日 志 量 ， 这 包括 了 写 到 log buffer 但 没有 刷新 
到 磁盘 的 redo 日 志 。 相 应 地 ， 设 计 InnoDB 的 大 叔 提 出 了 一 个 表示 刷新 到 磁盘 中 的 redo 日 志 
量 的 全 局 变量 ， 名 为 fushed to disk lsn。 系 统 在 第 一 次 启动 时 ， 该 变量 的 值 与 初始 的 lsn 值 是 
相同 的 ， 都 是 8,704。 随 着 系统 的 运行 ，redo 日 志 被 不 断 写 入 log buffer， 但 是 并 不 会 立即 刷新 
到 磁盘 ，lsn 的 值 就 与 fushed to disk lsn 的 值 拉 开 了 差距 。 
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buf next to write buf free 


log buffer: 


图 19-28 带 有 buf_next_to_write 和 buf free 的 log buffer 示意 图 


下 面 演示 一 

系统 在 第 一 次 启动 后 ， 向 bs buffer 中 写 入 了 mtr 1、mtr 2、mtr 3 这 3 个 MTR 产生 的 
redo 日 志 。 假 设 这 3 个 MTR 在 开始 和 结束 时 对 应 的 lsn 值 分 别 如 下 。 

e mtr 1: 8,716 一 8.916。 

e mtr 2: 8,916 ~ 9.948。 

e mtr 3: 9.948 一 10.000。 

此 时 的 lsn 已 经 增长 到 了 10,000， 由 于 没有 刷新 操作 ， 此 时 ftushed to _ disk lsn 的 值 仍 为 
8,704， 如 图 19-29 所 示 。 


As Ad 





log file: 





这 是 前 2048 字 节 
图 19-29 四 log buffer 和 log file 的 示意 图 


随后 将 log buffer 中 的 block 刷新 到 redo 日 志文 件 中 。 假 设 将 mtr 1 和 mtr 2 的 redo 日 志 
刷新 到 磁盘 ， 那 么 fushed to_disk lsn 就 应 该 增长 mtr 1 和 mtr 2 写 入 的 日 志 量 ， 所 以 ftushed 
to_disk_lsn 的 值 增长 到 了 9,948， 如 图 19-30 所 示 。 

综 上 所 述 ， 当 有 新 的 redo 日 志 写 入 到 log buffer 时， 首先 lsn 的 值 会 增长 ， 但 fushed to_ 
disk_lsn 不 变 ， 随 后 随 着 不 断 有 log buffer 中 的 日 志 被 刷新 到 磁盘 上 ， flushed_ to_disk lsn 的 
值 也 跟着 增长 。 如 果 两 者 的 值 相 同 ， 说 明 log buffer 中 的 所 有 redo 日 志 都 己 经 刷新 到 磁盘 
中 了 。 
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buf next to write buf free 





这 是 前 2.048 字 节 
图 19-30 将 logbuffer 中 的 block 刷新 到 redo 日 志文 件 

19.7.2 Isn 值 和 redo 日 志文 件 组 中 的 偏 移 量 的 对 应 关系 

因为 lsn 的 值 代 表 系 统 写 入 的 redo 日 志 量 的 一 个 总 和 。 一 个 MTR 中 产生 多 少 redo 日 ; 
lsn 的 值 就 增加 多 少 ( 当然， 有 时 还 要 加 上 log block header 和 log block trailer 的 大 小 )。 
MTR 产生 的 redo 日 志 写 到 磁盘 中 时 ， 很 容易 计算 某 一 个 lsn 值 在 redo 日 志文 件 组 中 的 偏 移 量 ， 
如 图 19-31 所 示 。 

lsn 值 : 8,704 8,916 9.948 


log file: 





偏 移 量 : 0 2,048 2260 3,292 
图 19-31 lsn 值 和 redo 日 志文 件 组 偏 移 量 的 对 应 关系 


初始 时 的 lsn 值 是 8,704， 对 应 的 redo 日 志文 件 组 偏 移 量 是 2.048， 之 后 每 个 MTR 向 磁盘 
中 写 入 多 少 字 节 redo 日 志 ，lsn 的 值 就 增长 多 少 〈 当 然 还 要 考虑 多 个 redo 日 志文 件 中 前 4 个 用 
于 存储 管理 信息 的 页 面 对 计 算 某 个 lsn 值 在 整个 redo 日 志文 件 组 的 偏 移 量 的 影响 ， 我 们 这 里 就 
不 展开 了 )。 


19.7.3 flush 链表 中 的 |sn 


我 们 知道 ， 一 个 MTR 代表 对 底层 页 面 的 一 次 原子 访问 ， 在 访问 过 程 中 可 能 会 产生 一 组 
不 可 分 割 的 redo 日 志 ; 在 MTR 结束 时 ， 会 把 这 一 组 redo 日 志 写 入 到 log buffer 中 。 除 此 之 
外 ， 在 MTR 结束 时 还 有 一 件 非 常 重要 的 事情 要 做 ， 就 是 把 在 MTR 执行 过 程 中 修改 过 的 页 
面 加 入 到 Buffer Pool 的 flush 链表 中 。 为 了 防止 大 家 早已 忘记 flush 链表 是 啥 ， 我 们 看 一 下 
图 19-32。 
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这 个 是 fush 链 表 的 基 节 点 ， 包 
含 链表 的 头 节点 、 尾 节 点 折 针 
以 及 链表 中 节点 数量 等 信息 






19-32 ”fiush 链表 





当 第 一 次 修改 某 个 已 经 加 载 到 Buffer Pool 中 的 页 面 时 ， 就 会 把 这 个 页 面 对 应 的 控制 块 插 
入 到 flush 链表 的 头 部 ， 之 后 再 修改 该 页 面 时 ， 由 于 它 已 经 在 flush 链表 中 ， 所 以 就 不 再 次 插入 
了 。 也 就 是 说 ，flush 链表 中 的 脏 页 是 按照 页 面 的 第 一 次 修改 时 间 进 行 排序 的 。 在 这 个 过 程 中 ， 
会 在 缓冲 页 对 应 的 控制 块 中 记录 两 个 关于 页 面 何 时 修改 的 属性 ， 
9 oldest_ modification : 第 一 次 修改 Buffer Pool 中 的 某 个 缓冲 页 时 ， 就 将 修改 该 页 面 的 
MTR 开始 时 对 应 的 lsn 值 写 入 这 个 属性 。 
® newest_modification : 每 修改 一 次 页 面 ， 都 会 将 修改 该 页 面 的 MTR 结束 时 对 应 的 lsn 
值 写 入 这 个 属性 。 也 就 是 说 ， 该 属性 表示 页 面 最 近 一 次 修改 后 对 应 的 lsn 值 。 
] 我 们 接着 上 面 踪 明 flushed_to_disk_lsn 的 例子 看 一 下 。 


er 





. 






加 入 到 flush 链表 的 头 部 。 接 着 需要 把 mtr 1 开始 时 对 应 的 lsn (也 就 是 8,716) 写 入 页 a 对 应 
的 控制 块 的 oldest_modification 属性 中 ， 把 mtr 1 结束 时 对 应 的 lsn (也 就 是 8,916) 写 入 页 a 
对 应 的 控制 块 的 newest_modification 属性 中 。 画 个 图 表示 一 下 (为 了 让 图 美观 一 些 ， 我 们 把 
oldest_modification 缩写 成 了 o_m， 把 newest_modification 缩写 成 了 n m) ， 如 图 19-33 所 示 。 







ush 链 表 基 节点 
页 a 的 控制 块 


图 19-33 痢 页 a 对 应 的 控制 块 加 入 到 flush 链表 的 头 部 
| 
接着 假设 mtr 2 “3 b 和 页 这 两 个 页 面 ， 那 么 在 mtr 2 执行 结束 时 ， 就 
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会 将 页 b 和 页 c 对 应 的 控制 块 都 加 入 到 flush 链表 的 头 部 。 接 着 需要 把 mtr 2 开始 时 对 应 的 lsn( 也 

就 是 8.916) 写 入 页 b 和 页 c 对 应 的 控制 块 的 oldest modification 属性 中 ， 把 mtr 2 结束 时 对 应 的 

lsn( 也 就 是 9,948) 写 入 页 b 和 页 c 对 应 的 控制 块 的 newest_modification 属性 中 ， 如 图 19-34 所 示 。 
flush 链 表 基 节 点 


页 b 的 控制 块 页 c 的 控制 块 页 a 的 控制 块 








图 19-34 将 页 b 和 页 c 对 应 的 控制 块 都 加 入 到 flush 链表 的 头 部 


从 图 19-34 可 以 看 出 ， 每 次 新 插入 到 flush 链表 中 的 节点 都 放 在 了 头 部 。 也 就 是 说 在 flush 
链表 中 ， 前 面 的 脏 页 修改 的 时 间 比 较 晚 ， 后 面 的 脏 页 修改 时 间 比 较 早 。 

接着 假设 mtr 3 执行 过 程 中 修改 了 页 b 和 页 d， 不 过 页 b 之 前 已 经 被 修改 过 了 ， 人 也 就 是 说 它 
对 应 的 控制 块 已 经 插入 到 了 flush 链表 中 ， 所 以 在 mtr 3 执行 结束 时 ， 只 需要 将 页 d 对 应 的 控制 
块 加 入 到 fiush 链表 的 头 部 即 可 。 接 着 需要 把 mtr 3 开始 时 对 应 的 lsn (也 就 是 9.948) 写 入 页 d 
对 应 的 控制 块 的 oldest modification 属性 中 ; 把 mtr 3 结束 时 对 应 的 lsn〈 也 就 是 10,000) 写 入 页 
d 对 应 的 控制 块 的 newest_modification 属性 中 。 另 外 ， 由 于 页 b 在 mtr 3 执行 过 程 中 又 发 生 了 一 次 
修改 ， 所 以 需要 将 页 b 对 应 的 控制 块 中 newest modification 的 值 更 新 为 10,000， 如 图 19-35 所 示 。 


flush 链 表 基 节点 
页 d 的 控制 块 页 b 的 控制 块 页 c 的 控制 块 页 a 的 控制 块 


nm 9948 


GD 全 > 0 m3 8D16 ODN 
nm OUUD LI 9 0948 Wii Um $916 






图 19-35 将 页 d 对 应 的 控制 块 加 入 到 flush 链表 头 部 
对 上 和 面 所 说 的 内 容 进行 总 结 ， 就 是 fush 链表 中 的 脏 页 按照 第 一 次 修改 发 生 的 时 间 顺 序 进 
行 排序 ， 也 就 是 按照 oldest modification 代表 的 lsn 值 进 行 排序 ， 被 多 次 更 新 的 页 面 不 会 重复 
插入 到 flush 链表 中 ， 但 是 会 更 新 newest_modification 属性 的 值 。 


19.8 checkpoint 


有 一 个 很 不 幸 的 事实 就 是 redo 日 志文 件 组 的 容量 是 有 限 的 ， 我 们 不 得 不 选择 循环 使 用 
redo 日 志文 件 组 中 的 文件 ， 但 是 这 会 造成 最 后 写 入 的 redo 日 志 与 最 开始 写 入 的 redo 日 志 “ 追 
尾 "。 这 时 应 该 想到 : redo 日 志 只 是 为 了 在 系统 崩溃 后 恢复 脏 页 用 的 ， 如 果 对 应 的 脏 页 已 经 刷 
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新 到 磁盘 中 ， 那 么 即使 现在 系统 崩溃 ， 在 重启 后 也 用 不 着 使 用 redo 日 志 恢 复 该 页 面 了 。 所 以 
该 redo 日 志 也 就 没有 存在 的 必要 了 ， 它 占用 的 磁盘 空间 就 可 以 被 后 续 的 redo 日 志 所 重用 。 也 
束 是 说 ， 判 断 某 些 redo ieee ey 就 是 它 对 应 的 脏 页 是 否 已 
冬 梓 刷新 到 了 磁盘 中 。 我 们 看 一 下 前 面 一 直 啼 嘱 的 那个 例子 ， 如 图 19-36 所 示 。 









mtr ] 


页 a 的 控制 块 


flush 链 表 基 节点 


'. 


Ow: 9948 


pms 1000I 





log hle 





图 19-36 mtr_ 1、mtrl 2、mtr 3 执行 后 flush 链表 、log buffer、log file 的 情况 
| 


在 图 19-36 中 ， 虽 然 mtr 1 和 mtr 2 生成 的 redo 日 志 都 已 经 写 到 了 磁盘 中 ， 但 是 它们 修改 
的 脏 页 仍然 留 在 Buffer Pool 中 ， Wan redo 日 志 在 磁盘 中 的 空间 是 不 可 以 被 覆盖 的 。 
之 后 随 着 系统 的 运行 ， 如 果 页 a 被 刷新 到 了 磁盘 ， 那 么 页 a 对 应 的 控制 块 就 会 从 fush 链表 中 
移 除 ， 如 图 19-37 所 示 。 | 

这 样 mtr 1 生成 的 redo 日 志 崇 没有 用 了 ， 这 些 redo 日 志 占 用 的 磁盘 空间 就 可 以 被 覆盖 掉 
了 。 设 计 InnoDB 的 大 叔 提 出 了 一 个 全 局 变量 checkpoint lsn， 用 来 表示 当前 系统 中 可 以 被 覆盖 
的 redo 日 志 总 量 是 多 少 。 这 个 变量 初始 值 也 是 8.704。 

比如 ， 现 在 页 a 被 刷新 到 了 磁盘 上 ，mtr 1 生成 的 redo 日 志 就 可 以 被 覆盖 了 ， 所 以 可 以 进 
行 一 个 增加 checkpoint_ lsn 的 操作 。 我 们 把 这 个 过 程 称 为 执行 一 次 checkpoint。 


前 面 章节 在 踪 中 Buffer Pool 时 说 过 ， 有 些 后 台 线 程 不 停 地 将 脏 页 刷新 到 磁盘 中 ， 
S: 其 实 这 个 “将 脏 页 刷新 到 磁盘 中 ”和 “执行 一 次 checkpoint” 是 两 回 事 . 一 般 来 讲 ， 刷 
小 贴 十 ”性 页 和 执行 checkpoint 是 在 不 同 的 线程 上 执行 的 ， 并 不 是 说 每 次 有 脏 页 刷新 就 要 去 执行 
一 次 checkpoint. 
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log file: 





19-37 页 a 被 刷新 到 磁盘 后 fush 链表 、log buffer、log file 的 情况 

执行 一 次 checkpoint 可 以 分 为 两 个 步骤 。 

步骤 1， 计算 当前 系统 中 可 以 被 覆盖 的 redo 日 志 对 应 的 lsn 值 最 大 是 多 少 。 

redo 日 志 可 以 被 覆盖 ， 这 意味 着 它 对 应 的 脏 页 被 刷新 到 了 磁盘 中 。 只 要 我 们 计算 出 当前 
系统 中 最 早 修改 的 脏 页 对 应 的 oldest modification 值 ， 那 么 凡是 系统 在 lsn 值 小 于 该 节点 的 
oldest modification 值 时 产生 的 redo 日 志 都 可 以 被 覆盖 掉 。 我 们 把 该 脏 页 的 oldest modification 
赋值 给 checkpoint lsn。 

比如 ， 当 前 系统 中 页 a 已 经 被 刷新 到 磁盘 ， 那 么 fush 链表 的 尾 节 点 就 是 页 ce。 该 节点 就 
是 当前 系统 中 最 早 修改 的 脏 页 了 ， 它 的 oldest_ modification 值 为 8,916。 我 们 把 8.916 赋值 给 
checkpoint lsn〈 也 就 是 说 在 redo 日 志 对 应 的 lsn 值 小 于 8,916 时 ， 就 可 以 被 覆盖 掉 )。 

步骤 2， 将 checkpoint lsn 与 对 应 的 redo 日 志文 件 组 偏 移 量 以 及 此 次 checkpoint 的 编号 写 到 

日 志文 件 的 管理 信息 (就 是 checkpointl 或 者 checkpoint2) 中 。 

设计 InnoDB 的 大 叔 维护 了 一 个 checkpoint_no 变量 ， 用 来 统计 目前 系统 执行 了 多 少 次 
checkpoint ; 每 执行 一 次 checkpoint， 该 变量 的 值 就 加 1。 我 们 在 17.7.2 节 说 过 ， 计 算 一 个 lsn 
值 对 应 的 redo 日 志文 件 组 偏 移 量 是 很 容易 的 ， 所 以 可 以 计算 得 到 该 checkpoint lsn 在 redo 日 志 
文件 组 中 对 应 的 偏 移 量 checkpoint_ offset， 然 后 把 checkpoint no、 checkpoint lsn、checkpoint 
offset 这 3 个 值 都 写 到 redo 日 志文 件 组 的 管理 信息 中 。 

我 们 还 说 过 ， 每 一 个 redo 日 志文 件 都 有 2,048 字 节 的 管理 信息 ， 但 是 上 述 关 于 checkpoint 的 
信息 只 会 被 写 到 日 志文 件 组 中 第 一 个 日 志文 件 的 管理 信息 中 。 不 过 它们 应 该 存储 到 checkpoint] 
中 还 是 checkpoint2 中 了 呢 ? 设计 InnoDB 的 大 叔 规定 : 当 checkpoint no 的 值 是 偶数 时 ， 就 写 到 
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checkpointl 中 ; 是 奇数 时 ， 就 写 到 checkpoint2 中 。 


海 再 强调 一 遍 ， 将 “及 页 刷新 到 磁盘 中 ”和 “执行 一 次 checkpoint” 是 两 回 事 ， 从 步 
-名 本 ? 可 以 看 出 来 ， 每 执 逢 次 checkpoint 都 要 修改 redo 日 志文 件 的 管理 信息 ， 也 就 是 说 
小 贴 士 ”执行 checkpoint 是 有 代 人 全 全 


记录 完 checkpoint 的 信息 之 后 ， redo 日 志文 件 组 中 各 个 lsn 值 的 关系 如 图 19-38 所 示 。 


| lsn=10,000 





19.9 用 亡 线 程 批 量 从 flush 链表 中 刷 出 脏 页 


前 文 在 介绍 Buffer Pool 时 说 过 ， 一 般 情况 下 都 是 后 台 的 线程 对 LRU 链表 和 flush 链表 进 
行 刷 脏 操作 ， 这 主要 因为 刷 脏 操作 比较 慢 ， 不 想 影响 用 户 线程 处 理 请 求 。 但 是 ， 如 果 当 前 系统 
修改 页 面 的 操作 十 分 频繁 ， 这 就 导致 写 redo 日 志 的 操作 十 分 频繁 ， 系 统 lsn 值 增长 过 快 。 如 果 
后 台 线 程 的 刷 脏 操作 不 能 将 脏 页 快速 刷 出 ， 系 统 将 无 法 及 时 执行 checkpoint， 可 能 就 需要 用 户 
线程 从 flush 链表 中 把 那些 最 早 修改 的 脏 页 (oldest modification 较 小 的 脏 页 ) 同步 刷新 到 磁盘 。 
这 样 这 些 脏 页 对 应 的 redo 日 志 就 没 用 了 ， 然 后 就 可 以 去 执行 checkpoint 了 。 


19.10 ”查看 系统 中 的 各 种 Isn 值 


可 以 使 用 SHOW ENGINE ODB STATUS 命令 查看 当前 InnoDB 存储 引擎 中 各 种 lsn 值 
的 情况 。 比 如 : 


mysql> SHOW ENGINE INNODB STATUS\G 


(.. .省 略 前 边 的 许多 状态 ) 

LOG | 
Log segquence number 124476971 
Log flushed up to 124099769 | 
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Pages flushed up to 124052503 

Last checkpoint at 124052494 

0 pending log flushes, 0 pending chkp writes 
24 log i/o's done, 2.00 log i/o's/second 


(.… .省 略 后 边 的 许多 状态 ) 


其 中 ， 

e Log sequence number 表示 系统 中 的 lsn 值 ， 也 就 是 当前 系统 已 经 写 入 的 redo 日 志 量 ， 
包括 写 入 到 log buffer 中 的 redo 日 志 ; 

e Log fushed up to 表示 ftushed to _disk lsn 的 值 ， 也 就 是 当前 系统 已 经 写 入 磁盘 的 redo 
日 志 量 ; 

® Pages flushed up to 表示 flush 链表 中 被 最 早 修改 的 那个 页 面 对 应 的 oldest modification 
属性 值 ; 

e Last checkpoint at 表示 当前 系统 的 checkpoint lsn 值 。 


19.11 innodb_flush_log_at_trx_commit 的 用 法 


前 面 讲 到 ， 为 了 保证 事务 的 持久 性 ， 用 户 线 程 在 事务 提交 时 需要 将 该 事务 执行 过 程 中 产生 
的 所 有 redo 日 志 都 刷新 到 磁盘 中 。 这 一 条 要 求 太 狠 了 ， 会 明显 地 降低 数据 库 性 能 。 如 果 对 事 
务 的 持久 性 要 求 不 那么 强烈 ， 可 选择 修改 一 个 名 为 innodb flush log at trx commit 的 系统 变量 
的 值 。 该 变量 有 3 个 可 选 的 值 。 
e 0: 当 该 系统 变量 的 值 为 0 时 ， 表 示 在 事务 提交 时 不 立即 向 磁盘 同步 redo 日 志 ， 这 个 
任务 交 给 后 台 线程 来 处 理 ; 这 样 会 明显 加 快 请 求 处 理 速度 。 但 是 ， 如 果 事 务 提 交 后 服 
务 器 “ 挂 ” 了， 后 台 线 程 没 有 及 时 将 redo 日 志 刷 新 到 磁盘 ， 那 么 该 事务 对 页 面 的 修改 
会 丢失 。 
e 1: 当 该 系统 变量 的 值 为 1 时 ， 表 示 在 事务 提交 时 需要 将 redo 日 志 同 步 到 磁盘 ;， 这 可 
以 保证 事务 的 持久 性 。 innodb flush log at trx commit 的 默认 值 也 是 1 。 

e 2: 当 该 系统 变量 的 值 为 2 时 ， 表 示 在 事务 提交 时 需要 将 redo 日 志 写 到 操作 系统 的 组 
冲 区 中 ， 但 并 不 需要 保证 将 日 志 真正 地 刷新 到 磁盘 。 在 这 种 情况 下 ， 如 果 数 据 库 “ 挂 ” 
了 而 操作 系统 没 “ 挂 ”， 事 务 的 持久 性 还 是 可 以 保证 的 。 但 是 如 果 操 作 系 统 也 “ 挂 > 了 ， 
那 就 不 能 保证 持久 性 了 。 


19.12 ” 关 溃 恢复 


在 服务 器 不 “ 挂 ” 的 情况 下 ，redo 日 志 简 直 就 是 个 累 效 ， 不 仅 没 用 ， 反 而 让 性 能 变 得 更 差 。 
但 是 万 一 ， 我 说 万 一 啊 ， 万 一 数据 库 挂 了 ， 那 redo 日 志 可 就 是 个 宝 了 。 我 们 就 可 以 在 重启 时 
根据 redo 日 志 中 的 记录 将 页 面 恢 复 到 系统 崩溃 前 的 状态 。 我 们 下 面 大 致 看 一 下 恢复 过 程 是 哈 
样 的 。 
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19.12.1 确定 恢复 的 起 点 


表面 说 过 ， 对 于 对 应 的 lsn 值 小 于 checkpoint_lsn 的 redo 日 志 来 说 ， 它 们 是 可 以 被 覆盖 的 。 
也 就 是 说 这 些 redo 日 志 对 应 的 脏 页 都 已 经 被 刷新 到 磁盘 中 了 。 既然 这 些 脏 页 已 经 被 刷 盘 ， 也 
束 没 必要 恢复 它们 了 。 对 于 对 应 的 lsn 值 不 小 于 checkpoint lsn 的 redo 日 志 ， 它们 对 应 的 脏 页 
可 能 没 被 刷 盘 ， 也 可 能 被 刷 盘 了 ， 我 们 不 能 确定 《因为 刷 盘 操作 大 部 分 时 候 是 异步 进行 的 )， 
所 以 需要 从 对 应 的 lsn 值 为 checkpoint lsn 的 redo 日 志 开 始 恢复 页 面 。 

在 redo 日 志文 件 组 第 一 个 文件 的 管理 信息 中 ， 有 两 个 block 都 存储 了 checkpoint lsn 的 
信息 ， 我 们 当然 是 要 选取 最 近 发 生 的 那 次 checkpoint 的 信息 。 用 来 衡量 checkpoint 发 生 时 
加 早晚 的 信息 就 是 checkpoint no， 我 们 只 要 把 checkpointl 和 checkpoint2 这 两 个 block 中 的 
checkpoint_no 值 读 出 来 并 比 一 下 大 小 ， 哪 个 checkpoint_no 值 更 大 ， 就 说 明 哪 个 block 存储 的 
加 是 最 近 的 一 次 checkpoint 信息 。 这 样 就 能 拿 到 最 近 发 生 的 checkpoint 对 应 的 checkpoint lsn 
值 以 及 它 在 redo 日 志文 件 组 中 的 偏 移 量 checkpoint offset。 


] 
19.12.2 确定 恢复 的 终点 


redo 日 志 恢 复 的 起 点 确定 了 , 那 终 点 是 哪个 呢 ? 这 个 还 得 从 block 的 结构 说 起 。 前 文 说 到 ， 
redo 日 志 是 顺序 写 入 的 ， 号 请 了 十 个 block 之 后 再 往 下 一 个 block 中 写 ， 如 图 19-39 所 示 。 





| 
图 19-39 往 block 中 写 redo 日 志 


普通 block 的 log block header 部 分 有 一 个 名 为 LOG_ BLOCK_HDR_DATA LEN 的 属性 ， 
该 属性 值 记 录 了 当前 block 中 使 用 了 多少 字 节 的 空间 。 对 于 被 填 满 的 block 来 说 ， 该 值 永远 为 
512。 如 果 该 属性 的 值 不 为 512， 孝 么 它 就 是 此 次 崩溃 恢复 中 需要 扫描 的 最 后 一 个 block。 也 就 
是 说 在 因 崩 溃 而 恢复 系统 时 ， a checkpoint_lsn 在 日 志文 件 组 中 对 应 的 偏 移 量 开始 ， 一 


直 扫 描 redo 日 志文 件 中 的 block， 直 到 某 个 block 的 LOG_BLOCK_HDR _DATA LEN 值 不 等 于 
512 为 止 。 


19.12.3 怎么 恢复 


在 确定 了 需要 扫描 哪些 redo 日 志 来 进行 恢复 之 后， 接 下 来 就 是 怎么 进行 恢复 了 。 假设 现 
在 的 redo 日 志文 件 中 有 5 条 redo 日 志 ， 如 图 19-40 所 示 。 
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checkpoint Isn 
图 19-40 ”redo 日 志文 件 中 的 5 条 redo 日 志 


由 于 redo 0 对 应 的 lsn 值 小 于 checkpoint lsn， 恢 复 时 可 以 不 管 它 。 我 们 现在 按照 redo 
日 志 的 顺序 依次 扫描 checkpoint lsn 之 后 的 各 条 redo 日 志 ， 按 照 日 志 中 记载 的 内 容 将 对 应 
的 页 面 恢复 过 来 。 这 样 没什么 问题 ， 不 过 设计 InnoDB 的 大 叔 还 是 想 了 一 些 办 法 来 加 快 这 


出 
个 恢复 过 程 。 

e 使 用 哈 希 表 

根据 redo 日 志 的 space ID 和 page number 属性 计算 出 哈 希 值 ， 把 space ID 和 page number 


相同 的 redo 日 志 放 到 哈 希 表 的 同一 个 槽 中 。 如 果 有 多 个 space ID 和 page number 都 相同 的 redo 
日 志 ， 那 么 它们 之 间 使 用 链表 连接 起 来 〈 按 照 生成 的 先后 顺序 连接 ) ， 如 图 19-41 所 示 。 





哈 希 表示 意图 


图 19-41 哈 希 表示 意图 


之 后 就 可 以 遍历 哈 希 表 。 因 为 对 同一 个 页 面 进行 修改 的 redo 日 志 都 放 在 了 一 个 槽 中 ， 所 
以 可 以 一 次 性 将 一 个 页 面 修复 好 (避免 了 很 多 读 取 页 面 的 随机 IJO)， 这 样 可 以 加 快 恢复 速度 。 
为 外 需要 注意 一 点 的 是 ， 同 一 个 页 面 的 redo 日 志 是 按照 生成 时 间 顺 序 进行 排序 的 ， 所 以 恢复 
时 也 是 按照 这 个 顺序 进行 恢复 。 如 果 不 按照 生 成 时 间 顺 序 进行 排序 ， 那 么 可 能 出 现 错误 。 比 
如 ， 原 先 的 修改 操作 是 先 插入 一 条 记录 ， 再 删除 该 条 记录 ， 如 果 恢 复 时 不 按照 这 个 顺序 来 ， 就 
可 能 变 成 先 删除 一 条 记录 ， 再 插入 一 条 记录 ; 这 显然 是 错误 的 。 

e 跳 过 已 经 刷新 到 磁盘 中 的 页 面 

前 面 说 过 ， 对 于 lsn 值 小 于 checkpoint lsn 的 redo 日 志 ， 它 所 对 应 的 脏 页 肯定 都 已 经 刷 到 磁盘 中 
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了 ， 但 是 对 于 lsn 值 不 小 于 int lsn 的 redo 日 志 ， 它 所 对 应 的 脏 页 不 能 确定 是 否 已 经 刷 到 磁盘 
中 。 原 因 是 在 最 近 执行 的 一 次 int 后 ， 后 台 线 程 可 能 又 不 断 地 从 LRU 链表 和 ftush 链表 中 将 
一 些 脏 页 刷 出 Buffer Pool。 对 于 这 些 lsn 值 不 小 于 checkpoint lsn 的 redo 日 志 ， 如 果 它 们 对 应 的 脏 页 
在 月 尝 发 生 时 已 经 刷新 到 磁盘 ， 那 么 在 恢复 时 也 就 没有 必要 根据 redo 日 志 的 内 容 修 改 该 页 面 了 。 

那么 ， 在 恢复 时 怎么 ed redo 日 志 对 应 的 脏 页 是 否 在 崩溃 发 生 时 已 经 刷新 到 磁盘 中 
了 了 呢 ? 这 还 得 从 页 面 的 结构 说 起 。 前 面 说 过 ， 每 个 页 面 都 有 一 个 称 为 File Header 的 部 分 。 在 
File Header 中 有 一 个 称 为 FIL_ PAGE _LSN 的 属性 ， 该 属性 记载 了 最 近 一 次 修改 页 面 时 对 应 的 
lsn 值 (其实 就 是 页 面 控制 块 中 的 newest_modification 值 )。 如 果 在 执行 了 某 次 checkpoint 之 后 ， 
有 脏 页 被 刷新 到 磁盘 中 ， 那 么 该 页 对 应 的 FIL PAGE _LSN 代表 的 lsn 值 肯定 大 于 checkpoint = 
lsn 的 值 。 几 是 符合 这 种 情况 的 页 面 就 不 需要 根据 lsn 值 小 于 FIL PAGE LSN 的 redo 日 志 进 行 
恢复 了 ， 所 以 这 进一步 提升 了 崩溃 恢复 的 速度 。 





19.13 ”遗漏 的 问题 LOG_BLOCK_HDR_NO 是 如 何 计 算 的 


前 文 说 过 ， 对 于 实际 存储 redo 日 志 的 普通 的 log block 来 说 ， 在 log block header 处 有 一 个 

名 为 LOG BLOCK_HDR_NO 的 属性 〈 忘 记 了 的 话 请 回 过 头 去 再 看 看 )。 这 个 属性 代表 一 个 唯 

| 一 的 编号 ， 它 的 值 在 初次 使 用 该 block 时 进行 分 配 ， 与 当时 的 系统 lsn 值 有 关 。 使 用 下 面 的 公 
式 可 以 计算 出 该 block 的 LOG BLOCK HDR NO 值 : 


((Lsn / 512) & Ox3FFFFFFF) + 1 


这 个 公式 中 的 0x3FFFFFFF 可 能 让 大 家 有 点 困惑 ， 其 实 它 的 二 进 制 表示 可 能 更 亲切 一 点 ， 
如 图 19-42 所 示 。 


| 0x3FFFFFFF 的 二 进 制 表示 : 


~ : | a TS 及 et Te 让 
] origmppoepepipeimmilr 
EE a a TE cE Be hh a 





SiCPA 二 -1 下， 
ws - 


图 19-42 ”0x3FFFFFFF 的 二 进 制 表示 


从 图 19-42 可 以 看 出 ，0x3FFFFFFF 对 应 的 32 位 二 进 制 数 的 前 2 个 比特 为 0， 后 30 个 
比特 都 为 1。 我 们 知道 ， 一 个 二 进 制 位 与 0 进行 与 运算 (&&) 的 结果 肯定 是 0， 一 个 二 进 
制 位 与 1 进行 与 运算 〈&) 的 结果 就 是 原 值 。 让 一 个 数 与 0x3FFFFFFF 进行 与 运算 的 意思 
就 是 要 将 该 值 的 前 2 个 比特 置 为 0， 这 样 该 值 就 肯定 小 于 或 等 于 0x3FFFFFFF 了 。 这 也 就 
说 明 ， 无 论 lsn 多 大 ，((lsn / 512) & 0x3FFFFFFF) 的 值 肯 定 在 0~0x3FFFFFFF 之 间 ， 再 加 
1 的 话 肯定 在 1~0x40000000 之 间 。 而 0x40000000 就 是 2”， 它 代表 着 1G。 也 就 是 说 ， 系 
统 能 产生 的 不 重复 的 LOG_BLOCK _HDR_NO 值 最 多 有 1G 个 。 设 计 InnoDB 的 大 叔 规定 ， 
redo 日 志文 件 组 中 包含 的 所 有 文件 大 小 的 总 和 不 得 超过 512GB， 一 个 block 大 小 是 512 字 
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节 ， 也 就 是 说 redo 日 志文 件 组 中 包含 的 block 块 最 多 为 1G 个 ， 所 以 有 1GB 个 不 重复 的 编 
号 值 也 就 够 用 了 。 : 

另外 ，LOG BLOCK_HDR_NO 值 的 第 一 个 比特 比较 特殊 ， 称 为 fush bit。 如 果 该 值 为 
1， 代 表 本 block 是 在 将 log buffer 中 的 block 刷新 到 磁盘 的 菜 次 操作 中 时 ， 第 一 个 被 刷 入 的 
block. 


不 知道 大 家 是 否 看 出 来 了 ， 本 章 通 篇 都 是 在 强调 如 何 让 已 经 提交 的 事务 保持 持久 
性 。 但是， 如 果 在 一 个 事务 执行 了 一 半 的 时 候 服务 器 突然 崩溃 ， 假 如 这 个 事务 执行 过 
装 : 各 所 写 的 Tedo 日 志 尚未 刷新 到 磁盘 ， 也 就 是 还 停留 在 log buffer 中 ， 那 么 服务 器 崩 也 
小 思考 ”就 崩 了 吧 ， 相 当 于 该 事务 哈 也 没 和 做. 但是， 如果 这 些 redo 日 志 都 已 经 刷新 到 了 磁盘 中 ， 
那么 在 下 次 开机 重启 时 会 根据 这 些 redo 日 志 把 页 面 恢复 过 来 ， 可 是 这 就 造成 一 个 事务 
处 于 只 执行 了 一 半 的 状态 . 
这 不 就 违背 了 原子 性 特性 了 么 ? 其实 ,这些 只 执行 了 一 半 的 事务 对 页 面 所 做 的 修改 
都 会 被 撤销 ， 这 就 是 第 20 章 要 啼 忠 的 undo 日 志 所 发 挥 出 的 神奇 功效 . 赶紧 准备 看 下 一 
章 叭 : 


19.14 总 结 


redo 日 志 记 录 了 事务 执行 过 程 中 都 修改 了 哪些 内 容 。 

事务 提交 时 只 将 执行 过 程 中 产生 的 redo 日 志 刷 新 到 磁盘 ， 而 不 是 将 所 有 修改 过 的 页 面 都 
刷新 到 磁盘 。 这 样 做 有 下 面 两 个 好 处 : 

@ redo 日 志 占 用 的 空间 非常 小 ; 

@ redo 日 志 是 顺序 写 入 磁盘 的 。 

一 条 redo 日 志 一 般 由 下 面 几 部 分 组 成 。 
type : 这 条 redo 日 志 的 类 型 。 
space ID : 表 空 间 ID。 
page number : 页 号 。 
data : 这 条 redo 日 志 的 具体 内 容 。 

redo 日 志 的 类 型 有 简单 和 复杂 之 分 。 简 单 类 型 的 redo 日 志 是 纯粹 的 物理 日 志 ， 复 杂 类 型 
的 redo 日 志 兼 有 物理 日 志和 逻辑 日 志 的 特性 。 

一 个 MTR 可 以 包含 一 组 redo 日 志 。 在 进行 崩溃 恢复 时 ， 这 一 组 redo 日 志 作 为 一 个 不 可 
分 割 的 整体 来 处 理 。 

redo 日 志 存 放 在 大 小 为 512 字 节 的 block 中。 每 一 个 block 被 分 为 3 部 分 : 

@ log block header ; 

@ logblockbody ; 

@ log block traller。 

redo 日 志 缓 神 区 是 一 片 连续 的 内 存 空 间 ， 由 若干 个 block 组 成 ， 可 以 通过 启动 选项 innodb 
log _ buffer size 来 调整 它 的 大 小 。 
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redo 日 志文 件 组 由 若干 个 日 志文 件 组 成 ， 这 些 redo 日 志文 件 是 被 循环 使 用 的 。redo 日 志 
文件 组 中 每 个 文件 的 大 小 都 一 样 格式 也 一 样 ， 都 是 由 两 部 分 组 成 : 

e 前 2,048 个 字 节 (也 就 是 前 4 个 block〉 用 来 存储 一 些 管理 信息 . 

e 从 第 2,048 字 节 往 后 的 字 节 用 来 存储 log buffer 中 的 block 镜像 。 

lsn 指 已 经 写 入 的 redo 日 志 量 ， flushed_to_disk_lsn 指 刷 新 到 磁盘 中 的 redo 日 志 量 ，flush 
链表 中 的 脏 页 按照 修改 发 生 的 和 间 顺 序 进行 排序 ， 也 就 是 按照 oldest_modification 代表 的 lsn 
值 进行 排序 。 被 多 次 更 新 的 页 面 ` 会 重复 插入 到 flush 链表 中 ， 但 是 会 更 新 newest _ modification 
属性 的 值 。checkpoint lsn 表示 当 系统 中 可 以 被 覆盖 的 redo 日 志 总 量 是 多 少 。 

redo 日 志 占 用 的 磁盘 空间 在 它 对 应 的 脏 页 己 经 被 刷新 到 磁盘 后 即 可 被 覆盖 。 执 行 一 次 
checkpoint 的 意思 就 是 增加 checkpoint lsn 的 值 ， 然后 把 相关 的 信息 存放 到 日 志文 件 的 管理 信 
息 中 。 


innodb flush log at trx commit 系统 变量 控制 着 在 事务 提交 时 是 否 将 该 事务 运行 过 程 中 产 
生 的 redo 刷新 到 磁盘 。 

在 崩溃 恢复 过 程 中 ， 从 redo 日 志文 件 组 第 一 个 文件 的 管理 信息 中 取出 最 近 发 生 的 那 次 
checkpoint 信息 ， 然 后 从 checkpoint lsn 在 日 志文 件 组 中 对 应 的 偏 移 量 开 始 ， 一 直 扫 描 日 志文 
件 中 的 block， 直 到 某 个 block 的 OG_BLOCK_HDR_DATA_LEN 值 不 等 于 512 为 止 。 在 恢复 
过 程 中 ， 使 用 哈 希 表 可 加 快 恢复 过 程 ， 并 且 会 跳 过 已经 刷新 到 磁盘 的 页 面 。 





三 


示 20 革 ”后悔 了 怎么 办 undo 日 志 





20.1 事务 回 深 的 需求 


我 们 说 过 ， 事 务 需要 保证 原子 性 ， 也 就 是 事务 中 的 操作 要 么 全 部 完成 ， 要 么 什么 也 不 做 。 
但 是 偏偏 有 时 候 事务 在 执行 到 一 半 时 会 出 现 一 些 情况 ， 比 如 下 面 这 些 情况 : 

e 事务 执行 过 程 中 可 能 遇 到 各 种 错误 ， 比 如 服务 器 本 身 的 错误 、 操 作 系 统 错误 ， 甚 至 是 

突然 断 电 导致 的 错误 ; 
e 程序 员 可 以 在 事务 执行 过 程 中 手动 输入 ROLLBACK 语句 结束 当前 事务 的 执行 。 
这 两 种 情况 都 会 导致 事务 执行 到 一 半 就 结束 ， 但 是 事务 在 执行 过 程 中 可 能 已 经 修改 了 很 多 
东西 。 为 了 保证 事务 的 原子 性 ， 我 们 需要 改 回 原来 的 样子 ， 这 个 过 程 就 称 为 回 滚 〈rollback )。 
这 就 造成 了 一 个 假象 : 这 个 事务 看 起 来 什么 都 没 做 ， 所 以 符合 原子 性 要 求 (有 时 候 仅 需要 对 部 
分 语句 进行 回 滚 ， 有 时 候 需 要 对 整个 事务 进行 回 滚 )。 
小 时 候 ， 我 非常 痴迷 于 象棋 ， 总 是 想 找 棋艺 厉害 的 大 人 下 棋 。 但 是 ， 赢 棋 是 不 可 能 赢 棋 的 ， 
这 奉子 都 不 可 能 赢 棋 的 。 又 不 想 认 输 ， 只 能 偷偷 地 悔 棋 才 能 勉强 玩 的 下 去 。 悔 棋 就 是 一 种 非常 
典型 的 回 滚 操作 。 比 如 棋子 往 前 走 两 步 ， 悔 棋 对 应 的 操作 就 是 向 后 走 两 步 ， 棋 子 往 左 走 一 步 ， 
悔 棋 对 应 的 操作 就 是 向 右 走 一 步 。 数 据 库 中 的 回 滚 跟 悔 棋 差 不 多 : 你 插入 了 一 条 记录 ， 回 滚 对 
应 的 操作 就 是 把 这 条 记录 删除 掉 ; 你 更 新 了 一 条 记录 ， 回 滚 对 应 的 操作 就 是 把 该 记录 更 新 回 旧 
值 ， 你 删除 了 一 条 记录 ， 回 滚 对 应 的 操作 自然 就 是 把 该 记录 再 插 进 去 。 貌 似 很 简单 的 样子 。 
从 上 面 的 描述 中 我 们 已 经 能 隐约 感觉 到 ， 每 当 要 对 一 条 记录 进行 改动 时 (这 里 的 改动 可 以 
指 INSERT、DELETE、UPDATE)， 都 需要 留 一 手 一 一 把 回 滚 时 所 需 的 东西 都 记 下 来 。 比 如 ; 
e 在 插入 一 条 记录 时 ， 至 少 要 把 这 条 记录 的 主键 值 记 下 来 ， 这 样 之 后 回 滚 时 只 需要 把 这 
个 主键 值 对 应 的 记录 删 掉 就 好 了 ; 

e 在 删除 一 条 记录 时 ， 至 少 要 把 这 条 记录 中 的 内 容 都 记 下 来 ， 这 样 之 后 回 滚 时 再 把 由 这 
些 内 容 组 成 的 记录 插入 到 表 中 就 好 了 ; 

e 在 修改 一 条 记录 时 ， 至 少 要 把 被 更 新 的 列 的 旧 值 记 下 来 ， 这 样 之 后 回 滚 时 再 把 这 些 列 
更 新 为 旧 值 就 好 了 。 

设计 数据 库 的 大 叔 把 这 些 为 了 回 滚 而 记录 的 东西 称 为 撤销 日 志 (undo log)。 我 们 也 可 以 中 西 
结合 ， 将 它 称 为 undo 日 志 。 这 里 需要 注意 的 一 点 是 ， 由 于 查询 操作 (SELECT) 并 不 会 修改 任何 
用 户 记 录 ， 所 以 在 执行 查询 操作 时 ， 并 不 需要 记录 相应 的 undo 日 志 。 在 真实 的 InnoDB 中 ，undo 
日 志 其 实 并 不 像 上 面 说 的 那么 简单 ， 不 同类 型 的 操作 产生 的 undo 日 志 的 格式 也 是 不 同 的 。 不 过 我 
们 先 暂 时 把 这 些 让 人 头 昏 脑 涨 的 具体 细节 放 一 放 ， 先 回 过 头 来 看 看 事务 id 是 哈 。 
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20.2.1 分 配 事务 id 的 时 机 


第 18 章 在 啼 四 事务 时 说 过 , 一 个 事务 可 以 是 一 个 只 读 事 务 ， 也 可 以 是 一 个 读 写 事务 。 

。 我 们 可 以 通过 START TRANSACTION READ ONLY 语句 开启 一 个 只 读 事 务 。 在 只 读 
事务 中 ， 不 可 以 对 普通 的 表 〈 其 他 事务 也 能 访问 到 的 表 ) 进行 增删 改 操作 ， 但 可 以 对 
mt 

e 我 们 可 以 通过 START TRANSACTION READ WRITE 语句 开启 一 个 读 写 事务 。 使 用 
BEGIN、START TRANS CTION 语句 开启 的 事务 默认 也 算是 读 写 事务 。 在 读 写 事务 中 
可 以 对 胡 执行 丧 改 查 提 作 . 

如 采 某 个 事务 在 执行 过 程 中 对 某 个 表 执行 了 增删 改 操作 ， 那么 InnoDB 存储 引擎 就 会 给 它 

分 配 一 个 独一无二 的 事务 id， 分 配方 式 如 下 。 

e 对 于 只 读 事 务 来 说 ， 只 在 它 第 一 次 对 某 个 用 户 创建 的 临时 表 执 行 增删 改 操作 时 ， 才 

会 为 这 个 事务 分 配 一 个 事务 id， 否则 是 不 分 配 事务 id 的 。 


我 们 在 第 15 章 中 

-XK- 有 时 会 在 Extra 列 看 到 
2 临时 表 。 这 个 内 部 临时 
人 小 贴 士 ” 表 并 不 一 样 。 在 事务 回 ; 
也 回 滚 。 在 执行 SELEC 








过 ， 对 某 个 查询 语句 执行 BXPLAIN 来 分 析 它 的 查询 计划 时 ， 
ing temporary 的 提示 .这 表明 在 执行 该 查询 语句 时 会 用 到 内 部 
与 用 CREATE TEMPORARY TABLE 语句 手动 创建 的 用 户 临 时 
时 ， 并 不 需要 把 执行 SELECT 语句 的 过 程 中 用 到 的 内 部 临时 表 
语句 时 如 果 用 到 内 部 临时 表 ， 并 不 会 为 它 分 配 事务 jd 


。 对 于 读 写 事务 来 说 ， 只 有 在 它 第 一 次 对 某 个 表 〈 包 括 用 户 创建 的 临时 表 ) 执行 增删 改 
操作 时 ， 才 会 为 这 个 事务 分 配 一 个 事务 id， 否 则 是 不 分 配 事 务 id 的 。 
有 时 ， 虽 然 我 们 开启 了 一 个 读 写 事务 ， 但 是 这 个 事务 中 全 是 查询 语句 ， 并 没有 执行 增删 改 
操作 的 语句 ， 这 也 就 意味 着 这 个 事务 并 不 会 被 分 配 一 个 事务 ia。 
次 了 半天 ， 事 务 id 到 底 有 喻 用 呢 ? 这 个 先 保 密 ， 后 边 会 一 步 步 地 详细 啼 明 。 现 在 只 要 知 
志 ， 只 有 在 事务 对 表 中 的 记录 进行 改动 时 才 会 为 这 个 事务 分 配 一 个 唯一 的 事务 记 。 
人 加 人 不 为 藉 个 事务 分 配 事务 这， 那么 它 的 事务 这 值 为 默认 值 0. 另外， 前 文 撕 太 的 
小 贴 十 ”事务 记分 配 策略 是 针对 MySQL 5.7 来 说 的 ， 更 早 版 本 的 分 配方 式 可 能 不 同 。 


+ 


20.2.2 事务 id 是 怎么 生成 的 


这 个 事务 这 本质 上 就 是 一 个 数字 ， 它 的 分 配 策略 与 前 面 章节 提 到 的 针对 隐藏 列 row id ( 当 
用 尸 没 有 为 表 创 建 主键 或 者 不 允许 存储 NULL 值 的 UNIQUE 键 时 ，InnoDB 会 自动 创建 该 列 ) 
的 分 配 策 略 大 抵 相 同 ， 具 体 策略 如 下 。 


© 丑 务 融会 在 内 存 中 维护 一 个 全 局 这 疾 每 当 需 要 为 某 个 事务 分 配 事务 id 时 ， 就 会 把 该 


| 
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变量 的 值 当 作 事 务 id 分 配给 该 事务 ， 并 且 把 该 变量 自 增 1。 

e 每 当 这 个 变量 的 值 为 256 的 倍数 时 ， 就 会 将 该 变量 的 值 刷 新 到 系统 表 空 间 中 页 号 为 5 
的 页 面 中 一 个 名 为 Max Trx ID 的 属性 中 ， 这 个 属性 占用 8 字 节 的 存储 空间 。 

e@e 当 系 统 下 一 次 重新 启动 时 ， 会 将 这 个 Max Trx ID 属性 加 载 到 内 存 中 ， 将 该 值 加 上 256 
之 后 赋值 给 前 面 提 到 的 全 局 变量 〈 因 为 在 上 次 关机 时 ， 该 全 局 变量 的 值 可 能 大 于 磁盘 
页 面 中 的 Max Trx ID 属性 值 )。 

这 样 就 可 以 保证 整个 系统 中 分 配 的 事务 id 值 是 一 个 递增 的 数字 。 先 分 配 事务 id 的 事务 得 

到 的 是 较 小 的 事务 id， 后 分 配 事务 id 的 事务 得 到 的 是 较 大 的 事务 id。 


20.2.3 trx_id 隐藏 列 


前 面 章 节 在 崂 明 InnoDB 记录 行 格式 的 时 候 重点 强调 过 ， 聚 艇 索引 的 记录 除了 会 保存 完整 
的 用 户 数据 以 外 ， 而 且 还 会 自动 添加 名 为 trx_ id、roll pointer 的 隐藏 列 。 如 果 用 户 没有 在 表 中 
定义 主键 以 及 不 允许 存储 NULL 值 的 UNIQUE 键 ， 还 会 自动 添加 一 个 名 为 row id 的 隐藏 列 。 
所 以 一 条 记录 在 页 面 中 的 真实 结构 如 图 20-1 所 示 。 





图 20-1 一 条 聚 簇 索 引 记 录 在 页 面 中 的 真实 结构 


其 中 的 trx_id 列 其 实 还 比较 好 理解 : 就 是 对 这 个 聚 簇 索引 记录 进行 改动 的 语句 所 在 的 事 
务 对 应 的 事务 id 而 已 (此 处 的 改动 可 以 是 INSERT、DELETE、UPDATE 操作 )。 至 于 roll 
pointer 隐藏 列 ， 会 在 后 文 分 析 。 


20.3 ”undo 日 志 的 格式 


为 了 实现 事务 的 原子 性 ，InnoDB 存储 引擎 在 实际 进行 记录 的 增删 改 操作 时 ， 都 需要 先 把 
对 应 的 undo 日 志 记 下 来 。 一 般 每 对 一 条 记录 进行 一 次 改动 ， 就 对 应 着 一 条 undo 日 志 。 但 在 某 
些 更 新 记录 的 操作 中 ， 也 可 能 会 对 应 着 2 条 undo 日 志 ， 这 个 会 在 后 面 仔细 叶 明 。 一 个 事务 在 
执行 过 程 中 可 能 新 增 、 删 除 、 更 新 若干 条 记录 ， 也 就 是 说 需要 记录 很 多 条 对 应 的 undo 日 志 。 
这 些 undo 日 志 会 从 0 开始 编号 ， 也 就 是 说 根据 生成 的 顺序 分 别称 为 第 0 号 undo 日 志 、 第 1 号 
undo 日 志 …… 第 mn 号 undo 日 志 等 。 这 个 编号 也 称 为 undo no。 

这 些 undo 日 志 被 记录 到 类 型 为 FIL PAGE UNDO LOG〔 对 应 的 十 六 进 制 是 0x0002) 的 
页 和 面 中 。 这 些 页 面 可 以 从 系统 表 空 间 中 分 配 ， 也 可 以 从 一 种 专门 存放 undo 日 志 的 表 空 间 (也 
就 是 undo tablespace) 中 分 配 。 关 于 如 何 分 配 存储 undo 日 志 的 页 面 ， 我 们 稍 后 再 说 ， 现 在 先 
来 看 看 不 同 操作 都 会 产生 什么 样 的 undo 日 志 。 

为 了 故事 的 顺利 发 展 ， 我 们 先 创建 一 个 名 为 undo_demo 的 表 。 它 的 表 结 构 如 下 所 示 : 
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| 
CREATE TABLE undo demo ( 
id INT NOT NULL， ] 
keyl VARCHAR (100), 
col VARCHAR(100), 
PRIMARY KEY (id), 
KEY idx keyl (key1l) | 
)Engine=InnoDB CHARSET=utf8: 


| 


这 个 表 中 有 3 个 列 ， 其 中 id 列 是 主键 ， 我 们 为 keyl 列 建立 了 一 个 二 级 索引 ，col 列 是 一 


个 普通 的 列 。 前 面 章节 在 介绍 hnoDB 数据 字典 时 说 过 ， 每 个 表 都 会 分 配 一 个 唯一 的 table id 
我 们 可 以 通过 系统 数据 库 information_schema 中 的 innodb_sys_tables 表 来 查看 某 个 表 对 应 的 


table 


入 ， 
把 这 


id 是 什么 。 现 在 看 一 下 undp_demo 对 应 的 table id 是 多 少 : 


mysgql> SELECT * FROM information_schema.innodb sys_ tables WHERE name = 'xiaohaizi/undo demo'; 


+ 一 -一 一 一 一 一 一 一 一 十 一 一 一 一 








A TE 一 一 一 + 
| TABLE ID | NAME | | N_COLS | SPACE | FILE FORMAT | ROW FORMAT | ZIP PAGE SIZE | SPACE TYPE | 
一 一 二 一 一 一 一 一 二 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 -一 一 二 
| 138 | xiaohaizi/undo demo | “K 6 | 482 | Barracuda | Dynamic | 0 | Single | 
+- 一 一 -一 -一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 + 一 一 一 一 + 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 了 一 一 一 一 + 一 一 一 一 一 +4 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 十 





1 row in set (0.01 sec) | 


从 查询 结果 可 以 看 出 ， ite fea 表 对 应 的 table id 为 138。 先 把 这 个 值 记 住 ， 我 们 后 面 有 用 。 
20.3.1 _ INSERT 操作 对 应 的 undo 日 志 
前 文 说 过 ， 当 向 表 中 插入 一 条 记录 时 会 有 乐观 插入 和 悲观 插入 的 区 分 。 但 是 不 管 怎么 插 


旷 全 号 到 的 结果 就 是 这 条 记 侯 被 放 到 了 一 个 数据 页 中 、 如 果 和 希望 回 滚 这 个 插入 操作 ， 那 么 
条 记录 删除 就 好 了 。 也 就 是 说 ， 在 写 对 应 的 undo 日 志 时 ， 只 要 把 这 条 记录 的 主键 信息 记 


上 就 好 了 。 所 以 设计 InnoDB 的 头 叔 设计 了 一 个 类 型 为 TRX_UNDO _ INSERT REC 的 undo 日 


它 的 完整 结构 如 图 20-2 所 示 。 


si 上 本 条 wndo 日 志 结束 ， 下 一 条 开始 时 在 页 面 中 的 地 址 





ndo Sh a | 本 条 undo 日 志 的 类 型 ， 也 就 是 TRX_UNDO _INSERT REC 


| 
根据 图 20-2， 我 们 强调 两 点 。 


al Em no 在 一 个 事务 中 是 从 0 开始 递增 的 。 也 就 是 说 ， 只 要 事务 没 提 交 ， 每 生成 一 条 
undo 日 志 ， 那么 该 条 日 志 的 undo no 就 增 1。 


‘ 如 果 记录 中 的 主键 只 包含 一 列 ， 那么 在 类 型 为 TRX_UNDO_ INSERT REC 的 undo 日 


和 时 
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志 中 ， 只 需 把 该 列 占用 的 存储 空间 大 小 和 真实 值 记 录 下 来 。 如 果 记 录 中 的 主键 包含 多 
个 列 ， 那 么 每 个 列 占用 的 存储 空间 大 小 和 对 应 的 真实 值 都 需要 记录 下 来 〈 图 20-2 中 的 
len 就 代表 列 占用 的 存储 空间 大 小 ; value 代表 列 的 真实 值 )。 


当 我 们 向 菜 个 表 中 插入 一 条 记录 时 ， 实 际 上 需要 向 聚 答 索引 和 所 有 二 级 索引 都 插入 
一 条 记录 .不 过 在 记录 undo 日 志 时 ， 我 们 只 需要 针对 聚 徐 索引 记录 来 记录 一 条 tndo 日 志 

;全 、“ 训 和 了 ， 到 绪 索引 记录 和 二 级 索引 记录 是 一 一 对 应 的 ， 我 们 在 回 滚 INSERT 操作 时 ， 只 雷 

小 贴 十 ”要 知道 这 条 记录 的 主键 信息 ， 然 后 根据 主键 信息 进行 对 应 的 删除 操作 ;在 执行 删除 操作 
时 ， 就 会 把 聚 答案 引 和 所 有 二 级 索引 中 相应 的 记录 都 删 掉 。 后 面 说 到 的 DELETE 操作 
和 UPDATE 操作 也 是 针对 聚 徐 索引 记录 的 改动 来 记录 undo 日 志 的 ， 之 后 就 不 强调 了 . 


现在 各 undo_demo 表 中 插入 两 条 记录 : 


BEGIN;  # 显 式 开启 一 个 事务 ， 假 设 该 事务 的 事务 id 为 100 


# 插入 两 条 记录 
INSERT INTO undo demo (id, keyl, col) 
VALUES (1，'AWM'，' 狙 击 枪 ')，(2，'M416'， ' 步 枪 ')， 


因为 记录 的 主键 只 包含 一 个 id 列 ， 所 以 在 对 应 的 undo 日 志 中 只 需要 将 待 插 入 记录 的 id 列 占 

用 的 存储 空间 长 度 (id 列 的 类 型 为 INT， 而 INT 类 型 占用 的 存储 空间 长 度 为 4 字 节 ) 和 真实 值 记 

录 下 来 。 本 例 中 插入 了 两 条 记录 ， 所 以 会 产生 两 条 类 型 为 TRX _ UNDO INSERT REC 的 undo 日 志 。 

e 第 1 条 undo 日 志 的 undo no 为 0， 记 录 主 键 占用 的 存储 空间 长 度 为 4， 真 实 值 为 1， 如 
20-3 所 示 。 





图 20-3 第 1 条 undo 日 志 


e 第 2 条 undo 日 志 的 undo no 为 1， 记 录 主 键 占 用 的 存储 空间 长 度 为 4， 真 实 值 为 2， 如 
图 20-4 所 示 “ 与 第 1 条 undo 日 志 对 比 ， 可 以 发 现 undo no 和 主键 各 列 信息 均 有 不 同 )。 


与 为 了 节省 redo 日 志 占 用 的 存储 空间 而 使 用 的 方法 类 似 ;j 设计 InnoDB 的 大 叔 对 
undo 日 志 中 的 某 些 属 性 进行 了 压缩 处 理 ， 最 大 限度 地 节省 undo 日 志 占 用 的 存储 空间 ， 
小 贴 士 “ 具体 的 压缩 细节 就 不 嘴 唉 了。 
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主键 各 列 信息 : <len，value> 列 表 





start of record 


图 20-4 第 2 条 undo 日 志 


现在 是 时 候 揭 开 roll_pointer 的 “神秘 面纱 ”了 ， 这 个 占用 7 字 节 的 字段 其 实 一 点 都 不 神秘 ， 
本 质 上 就 是 一 个 指向 记录 对 应 的 undo 日 志 的 指针 。 比 如 ， 我 们 在 前 面向 undo demo 表 中 插入 
了 2 条 记录 ， 就 意味 着 向 聚 饼 案 引 和 二 级 索引 idx_keyl 中 分 别 插入 了 2 条 记录 ， 不 过 我 们 只 
需要 针对 聚 簇 索引 来 记录 undo 日 志 就 好 了 。 聚 艇 索引 记录 存放 到 类 型 为 FIL PAGE INDEX 
的 页 面 中 (就 是 我 们 前 边 一 直 所 说 的 数据 页 )，undo 日 志 存 放 到 类 型 为 FIL PAGE UNDO 
LOG 的 页 面 中 。 最 终 效 果 如 图 20-5 所 示 。 





| 类 型 为 FIL_PAGE INDEX 的 页 面 类 型 为 FIL_ PAGE UNDO LOG 的 页 面 





图 20-5 案 簇 索引 记录 和 undo 日 志 的 存放 位 置 
从 图 20-5 中 也 可 以 更 直观 地 看 出 ， roll_pointer 本 质 上 就 是 一 个 指针 ， 指 向 记录 对 应 的 undo 日 


志 。roll pointer 每 一 个 字 节 的 具体 4 义 会 在 啼 四 完 如 何 分 配 存储 undo 日 志 的 页 面 之 后 再 具体 介绍 。 
20.3.2 DELETE 操作 对 应 的 undo 日 志 


我 们 知道 ， 插 入 到 页 面 中 的 记录 会 根据 记录 头 信息 中 的 next_ record 属性 组 成 一 个 单 向 链 
表 ， 我 们 可 以 把 这 个 链表 称 为 正常 记录 链表 。 前 面 章节 在 啼 思 数据 页 结构 的 时 候 说 过 ， 被 删除 
的 记录 其 实 也 会 根据 记录 头 信息 中 的 next record 属性 组 成 一 个 链表 ， 只 不 过 这 个 链表 中 的 记 
录 占 用 的 存储 空间 可 以 被 重新 利用 ， 所 以 也 称 这 个 链表 为 垃圾 链表 。Page Header 部 分 中 有 一 
个 名 为 PAGE FREE 的 属性 ， 它 问 由 被 删除 记录 组 成 的 垃圾 链表 中 的 头 节 点 。 


一 -一 -~ 


为 了 故事 的 顺利 发 展 ， 我 们 先 画 一 个 图 ， 假设 此 刻 某 个 页 面 中 的 记录 分 布 情况 如 图 20-6 


PE) i SS 








348 “第 20 章 后 悔 了 怎么 办 一 一 undo 日 志 


所 示 〈 这 不 是 undo_demo 表 中 的 记录 ， 只 是 随便 举 的 一 个 例子 )。 


和 I 





图 20-6 st ee 


| 
为 了 突出 主题 ， 在 图 20-6 所 示 的 这 个 简化 版 示意 图 中 ， 我 们 只 把 记录 的 deleted flag 标志 位 
展示 了 出 来 。 从 图 中 可 以 看 出 ， 正 常 记录 链表 中 包含 3 条 正常 记录 ， 垃 圾 链表 中 包含 2 条 已 删 
除 记 录 。 在 垃圾 链表 中 ， 这 些 记录 占用 的 存储 空间 可 以 被 重新 利用 。 在 页 面 的 Page Header 部 分 \ 
中 ，PAGE_FREE 属性 的 值 代表 指向 垃圾 链表 头 节点 的 指针 。 假 设 现在 准备 使 用 DELETE 语句 
把 正常 记录 链表 中 的 最 后 一 条 记录 删除 ， 这 个 删除 的 过 程 需 要 经 历 两 个 阶段 。 

e 阶段 1: 仅仅 将 记录 的 deleted_ fag 标识 位 设置 为 1， 其 他 的 不 做 修改 (其 实 会 修改 记 
录 的 trx_id、roll_pointer 这 些 隐藏 列 的 值 ， 不 过 这 不 是 重点 ， 所 以 没有 强调 )。 设 计 
InnoDB 的 大 叔 把 这 个 阶段 称 为 delete mark。 

把 这 个 过 程 画 下 来 ， 如 图 20-7 所 示 。 
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20-7 ”delete mark 过 程 示 意图 


可 以 看 到 ， 在 正常 记录 链表 中 ， 最 后 一 条 记录 的 deleted flag 值 被 设置 为 1， 但 是 这 条 记 
录 并 没有 加 入 到 垃圾 链表 中 。 也 就 是 说 ， 此 时 记录 既 不 是 正常 记录 ， 也 不 是 已 删除 记录 ， 而 
是 一 个 处 于 中 间 状 态 的 记录 一 一 猪八戒 照 镜 子 ， 里 外 不 是 人 。 在 删除 语句 所 在 的 事务 提交 之 
前 ， 被 删除 的 记录 一 直 都 处 于 这 种 中 间 状 态 。 





ss 
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5 为 啥 会 有 这 种 奇怪 的 中 间 状 态 呢 ? 其 实 主要 是 为 了 实现 一 个 名 为 MVCC 的 功能 。 
小 贴 士 工 一 下 


e 阶段 2: 当 该 删除 语句 所 在 的 事务 提交 之 后 ， 会 有 专门 的 线程 来 真正 地 把 记录 删除 掉 。 
所 谓 “真正 地 删除 ”"， 就 是 把 该 记录 从 正常 记录 链表 中 移 除 ， 并 且 加 入 到 垃圾 链表 中 。 
然后 还 要 调整 一 些 页 面 的 其 他 信息 ， 比如 页 面 中 的 用 户 记录 数量 PAGE N RECS、 上 
次 插入 记录 的 位 置 PAGE LAST _ INSERT、 垃圾 链表 头 节 点 的 指针 PAGE FREE、 页 面 
中 可 重用 的 字 节 数量 PAGE GARBAGE， 以 及 页 目录 的 一 些 信息 等 。 设 计 InnoDB 的 
大 坡 把 这 个 阶段 称 为 padge。 


在 阶段 2 执行 完 后 ， 这 条 记录 就 算是 真正 地 被 删除 掉 了 。 这 条 已 删除 记录 占用 的 存储 空间 
也 就 可 以 重新 利用 了 ， 如 图 20- g 所 示 。 





图 20-8 ”purge 的 执行 过 程 


企图 20-8 中 还 要 注意 一 点 ， 在 将 被 删除 记录 加 入 到 垃圾 链表 中 时 ， 实际 上 是 加 入 到 链表 
的 头 节 点 处 ， 还 会 跟着 修改 PAGE FREE 属性 的 值 。 


前 面 章节 在 中 轨 数 电 页 结交 时 说 过 页 面 的 Page Header 部 分 有 一 个 名 为 PAGE 
GARBAGE 的 属性 .该 属性 记录 着 当前 页 面 中 可 重用 存储 空间 占用 的 总 字 节 数 . 每 当 有 
已 删除 记录 加 入 到 垃圾 链表 后 ， 都 会 把 这 个 PAGE GARBAGE 属性 的 值 加 上 已 删除 记 
录 占 用 的 存储 空间 大 小 . 
PAGE_FREE 指向 垃圾 链表 的 头 节点 ， 之 后 每 当 新 插入 记录 时 ， 首 先 判 断 垃 圾 链表 
~- “ 头 节点 代表 的 et 间 是 否 足够 容纳 这 条 新 插入 的 记录 .如 果 无 法 
9: 容纳 ， 就 直接 向 页 面 申 请 新 的 空间 来 存储 这 条 记录 ( 是 的 ， 你 没 看 错 ， 并 不 会 尝试 遍历 
整个 垃圾 链表 ， 以 找到 十 个 可 以 容纳 新 记录 的 节点 ). 如 采 可 以 容纳 ， 那 么 直接 重用 这 
条 已 删除 记录 的 存储 空间 ， 并 让 PAGE_FREE 指向 垃圾 链表 中 的 下 一 条 已 删除 记录 . 
这 里 有 一 个 问题 ， 如 果 新 插入 的 那 条 记录 占用 的 存储 空间 ， 小 于 垃圾 链表 头 节 点 对 
应 的 已 删除 记录 占用 的 存储 空间 ， 那 就 意味 头 节点 对 应 的 记录 所 占用 的 存储 空间 中 ， 有 
一 部 分 空间 用 不 到 ， 这 部 分 空间 就 算是 二 个 碎片 空间 。 和 由 此 产生 
的 碎 卢 空间 也 可 能 越 来 越 多 。 这些 碎片 空间 岂 不 是 永远 都 用 不 到 了 勾 


0 
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其 实 也 不 是 ， 这 些 碎 片 空间 占用 的 存储 空间 大 小 会 被 统计 到 PAGE GARBAGE 属 
性 中 。 这 些 碎片 空间 在 整个 页 面 快 使 用 完 前 并 不 会 被 重新 利用 。 不 过 当 页 面 快 满 时 ， 如 
果 再 插入 一 条 新 记录 ， 此 时 页 面 中 并 不 能 分 配 一 条 完整 记录 的 空间 。 这 个 时 候 ， 会 先 看 
看 PAGE_ GARBAGE 的 空间 和 剩余 可 利用 的 空间 相 加 之 后 是 否 可 以 容纳 这 条 记录 。 如 
有 果 可 以 ，InnoDB 会 尝试 重新 组 织 页 内 的 记录 。 重新 组 织 的 过 程 就 是 先 开辟 一 个 临时 页 
面 ， 把 页 面 内 的 记录 依次 插入 一 遍 。 因 为 依次 插入 记录 时 并 不 会 产生 碎片 ， 之 后 再 把 临 
时 页 面 的 内 容 复制 到 本 页 面 ， 这 样 就 可 以 把 那些 碎片 空间 都 解放 出 来 (很 显然 ， 重 新 组 
织 页 面 内 的 记录 会 比较 耗费 性 能 ). 


从 前 面 的 描述 可 以 看 出 ， 在 执行 一 条 删除 语句 的 过 程 中 ， 在 删除 语句 所 在 的 事务 提交 之 
前 ， 只 会 经 历 阶 段 1， 也 就 是 delete mark 阶段 。 而 一 旦 事务 提交 ， 我 们 也 就 不 需要 再 回 滚 这 
个 事务 了 。 所 以 在 设计 undo 日 志 时 ， 只 需要 考虑 对 删除 操作 在 阶段 1 所 做 的 影响 进行 回 滚 就 
好 了 。 于 是 设计 InnoDB 的 大 叔 为 此 设计 了 一 种 名 为 TRX_UNDO DEL MARK REC 类 型 的 
undo 日 志 ， 它 的 完整 结构 如 图 20-9 所 示 。 








: 本 条 undo 日 志 的 类 型 ， 也 就 是 TRX UNDO DEL MARK REC 
| 本 条 undo 日 志 对 应 的 编号 
tabte i | 本 条 undo 日 志 对 应 的 记录 所 在 表 的 table id 


= 


p> 


| 记录 头 信息 的 前 4 个 比特 的 什 


Wie bits 


- 和 \ 
和 = 人 = 了 生生 
2 a 


| 旧 记 录 的 trx_id 值 
旧 记 录 的 roll pointer 值 


主键 的 每 个 列 占 用 的 存储 空间 大 小 和 真实 值 


也 就 是 下 边 的 “ 案 引 列 各 列 信 息 ” 部 分 
和 本 部 分 占用 的 存储 空间 大 小 


凡是 被 索引 的 列 的 各 列 信息 


20-9 TRX_UNDO DEL MARK REC 类 型 的 undo 日 志 结 构 


图 20-9 里 面 的 属性 也 太 多 了 点 儿 吧 (其实 大 部 分 属性 的 意思 已 经 在 前 面 介绍 过 了 ) ! 是 
的 ， 的 确 有 点 多 。 不 过 大 家 不 要 在 意 ， 如 果 记 不 住 也 不 用 勉强 自己 ， 我 在 这 里 把 它们 都 列 出 
来 也 只 是 让 大 家 混 个 脸 熟 而 已 。 劳 烦 大 家 先 放 轻松 ， 先 大 致 看 一 下 这 个 类 型 为 TRX UNDO 


e 在 对 一 条 记录 进行 delete mark 操作 前 ， 需 要 把 该 记录 的 trx id 和 roll pointer 隐藏 列 的 
旧 值 都 记 到 对 应 的 undo 日 志 中 的 trx_id 和 roll_pointer 属性 中 。 这 样 有 一 个 好 处 ， 就 是 





7 、 a 和 划 
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可 以 通过 undo 日 志 的 es 属性 找到 上 一 次 对 该 记录 进行 改动 时 产生 的 undo 日 


志 。 比 如 在 一 个 事务 中 ,| 我们 先 插入 了 一 条 记录 ， 然后 又 执行 该 记录 的 删除 操作 。 这 
个 过 程 的 示意 图 如 图 we 所 示 。 


执行 删除 操作 
C= 





: Pr a 
多 -IT el ps 


和 < 
tA 
2 4 7 | - 

在 } 
1 





图 20-10 在 一 个 事务 中 插入 记录 又 删除 该 记录 的 操作 过 程 





从 图 20-10 可 以 看 出 ， 在 执行 完 delete mark 操作 后 ， 中 间 状 态 记录 、 delete mark 操作 产生 
的 undo 日 志 以 及 INSERT 操作 产生 的 undo 日 志 就 串 成 了 一 个 链表 、。 这 很 有 意思 ! 这 个 链表 称 
为 版 本 链 ， 现 在 看 不 出 这 个 版 本 链 有 啥 用 。 等 我 们 再 往 后 看 看 ， 在 讲 完 UPDATE 操作 对 应 的 
undo 日 志 后 ， 这 个 版 本 链 就 慢 慢 地 展现 出 它 的 厉害 之 处 了 。 
e 与 类 型 为 TRX UNDO IN _REC 的 undo 日 志 不 同 ， 类 型 为 TRX UNDO DEL MARK 
REC 的 undo 日 志 还 多 了 二 个 索引 列 各 列 信息 的 内 容 。 也 就 是 说 ， 如 果 某 个 列 被 包含 
在 某 个 索引 中 ， 那 么 它 相关 信息 就 应 该 记录 到 这 个 索引 列 各 列 的 信息 部 分 。 所 谓 的 
“相关 信息 ”包括 该 列 在 记录 中 的 位 置 (用 pos 表示 )、 该 列 占 用 的 存储 空间 大 小 (用 
len 表示 )、 该 列 实际 值 (用 value 表示 )。 所 以 ， 索 引 列 各 列 信息 存储 的 内 容 实质 上 就 是 
<pos, len, value> 的 一 个 列表 。 这 部 分 信息 主要 在 事务 提交 后 使 用 ， 用 来 对 中 间 状 态 的 记 
录 进 行 真正 的 删除 ( 即 在 阶段 2， 也 就 是 purge 阶段 中 使 用 )。 现在 就 不 投入 过 多 精力 去 
研究 它 了 。 
该 介绍 的 介绍 完了 ， 现 在 继续 在 上 面 那个 事务 id 为 100 的 事务 中 删除 一 条 记录 。 比 如 把 
id 为 1 的 那 条 记录 删除 : 


BEGIN; # 显 式 开启 一 个 事务 ， 0 
# 插入 了 两 条 记录 | 
INSERT INTO undo demo (id, keyl, col) 
VALUES (1， "ANM' ，“' 狙 击 枪 ') | (2，'M416'，' 步 枪 '); 





# 删除 一 条 记录 


DELETE FROM undo demo WHERE id |= 1; 





这 个 删除 语句 的 delete mark 操作 对 应 的 undo 日 志 的 结构 如 图 20-11 所 示 。 
对 照 着 图 20-11， 我 们 得 注意 下 面 几 点 。 
e 因为 这 条 undo 日 志 是 id 为 100 的 事务 中 产生 的 第 3 条 undo 日 志 ， 所 以 它 对 应 的 undo 


no 就 是 2。 
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e 在 对 记录 执行 delete mark 操作 时 ， 记 录 的 trx_id 隐藏 列 的 值 是 100〈 也 就 是 说 ， 该 记录 最 
近 的 一 次 修改 就 发 生 在 本 事务 中 )， 所 以 把 100 填 入 undo 日 志 的 trx id 属性 中 。 然 后 把 记 
录 的 roll pointer 隐藏 列 的 值 取出 来 ， 填 入 undo 日 志 的 roll pointer 属性 中 。 这 样 就 可 以 通 
过 undo 日 志 的 roll pointer 属性 值 找到 上 一 次 对 该 记录 进行 改动 时 产生 的 undo 日 志 。 
e 由 于 undo demo 表 中 有 2 个 索引 【 聚 簇 索引 、 二 级 索引 idx keyl)， 因 此 只 要 是 包含 
在 索引 中 的 列 ， 那 么 这 个 列 在 记录 中 的 位 置 (pos)、 占 用 的 存储 空间 大 小 〈len) 和 实 
际 值 (value) 就 需要 存储 到 undo 日 志 中 。 


| cnd of record 








RE | undo type 
| undo no 


| table id 








主键 各 列 信息 


| 本 部 分 和 下 一 个 部 分 占用 -一 
的 存储 空间 大 小 地 址 | ea 


索引 列 各 列 信息 : 
<pos，len，value> 列 表 


地 址 | start of record 





图 20-11 删除 语句 的 delete mark 操作 对 应 的 undo 日 志 的 结构 


对 于 主键 来 说 ， 它 只 包含 一 个 id 列 ， 存 储 到 undo 日 志 中 的 相关 信息 如 图 20-12 所 示 。 
四 pos : id 列 是 主键 ， 也 就 是 在 记录 的 第 一 列 ， 它 对 应 的 pos 值 为 0。pos 使 用 1 字 节 
来 存储 。 
四 ”len : id 列 的 类 型 为 INT， 占 用 4 字 节 ， 所 以 len 的 值 为 4。len 使 用 1 字 节 来 存储 。 
@ value : 在 被 删除 的 记录 中 ，id 列 的 值 为 1， 也 就 是 value 的 值 为 1。value 使 用 4 字 
节 来 存储 。 
所 以 ， 对 于 id 列 来 说 ， 最 终 存 储 的 结果 就 是 <0, 4, 1>。 存 储 这 些 信息 占用 的 存储 空间 为 1 + 
1+4=6 字 节 。 
对 于 idx_keyl 来 说 ， 只 包含 一 个 keyl 列 ， 存 储 到 undo 日 志 中 的 相关 信息 如 图 20-13 所 示 。 
四 pos : keyl 列 排 在 id 列 、trx_id 列 、roll_ pointer 列 之 后 ， 它 对 应 的 pos 值 为 3。pos 
使 用 1 字 节 来 存储 。 
四 len : keyl 列 的 类 型 为 VARCHAR(100)， 使 用 utf8 字符 集 ， 被 删除 的 记录 实际 存储 的 
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内 容 是 'AWM'， 所 以 二 共 占 用 3 字 节 。 也 就 是 说 len 的 值 为 3。len 使 用 1 字 节 来 存储 。 
四 Value : 在 被 删除 的 记录 中 ， keyl 列 的 值 为 'AWM'， 也 就 是 value 的 值 为 'AWM'。 





value 使 用 3 字 节 来 存储 。 
id 列 相关 信息 keyl 列 相关 信息 
过节 一 1 字 节 下 一 一 一 4 守节 一 一 | 上 1 字 #- 十 -1?#- 十 33 一 | 
Li hi AN Se fe ~ EVN A 0 es pk EY 
A i Se : ey 









pos len value 


图 20-12 id 列 相 关 信 息 图 20-13 keyl 列 相 关 信 息 


所 以 ， 对 于 keyl 列 来 说 ， 最 终 存 储 的 结果 就 是 <3 3, 'AWM'>、 仓储 这 些 信息 占用 的 存储 
空间 为 1+1+3=5 字 节 。 

从 上 面 的 文字 中 可 以 看 到 ，<0, 4 1> 和 <3, 3, 'AWM'> 共 占 用 11 字 节 。 然 后 len of index 
col_info 本 身 占 用 2 字 节 ， 所 以 加 起 来 一 共 占 用 13 字 节 。 于 是 把 数字 13 填 到 了 index col info 
len 的 属性 中 。 





| 
20.3.3 UPDATE 操作 对 应 的 undo 日 志 


在 执行 UPDATE 语句 时 ，InnoDB 对 更 新 主键 和 不 更 新 主键 这 两 种 情况 有 截然 不 同 的 处 理 
方案 。 


1， 不 更 新 主键 | 

在 不 更 新 主键 的 情况 下 ， 又 可 以 细 分 为 被 更 新 的 列 占用 的 存储 空间 不 发 生变 化 和 发 生态 化 
两 种 情况 。 | 

e 就 地 更 新 (in-place update) 

在 更 新 记录 时 ， 对 于 被 更 新 的 每 个 列 来 说 ， 如 果 更 新 后 的 列 与 更 新 前 的 列 占 用 的 存储 空间 
一 样 大 ， 那 么 可 以 进行 就 地 更 新 ， 也 就 是 直接 在 原 记录 的 基础 上 修改 对 应 列 的 值 。 再 强调 一 
下， 是 每 个 列 在 更 新 前 后 占用 的 存储 空间 一 样 大 ， 只 要 有 任何 一 个 被 更 新 的 列 在 更 新 前 比 更 新 
后 三 用 的 存储 空间 大 ， 或 者 在 更 新 前 比 更 新 后 占用 的 存储 空间 小 ， 就 不 能 进行 就 地 和 更新。 此 
如 ， 现 在 undo_demo 表 中 还 有 一 条 id 值 为 2 的 记录 ， 它 的 各 个 列 占用 的 大 小 如 图 20-14 所 示 
(因为 采用 的 是 utf8 字符 集 ， 所 以 ' 步枪 ' 这 两 个 字符 占用 6 字 节 )、 





20-14 id 为 2 的 聚 秘 索引 记录 


假如 我 们 有 下 面 这 样 的 UPDAITE 语句 : 


UPDATE undo demo | 
SET keyl = 'P92', col = ' 手 枪 ' 
WHERE id = 2; | 
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在 这 个 UPDATE 语句 中 ，col 列 从 ' 步 枪 ' 更 新 为 ' 手 枪 '， 前 后 都 占用 6 字 节 ， 即 占用 的 存储 
空间 大 小 未 改变 ; keyl 列 从 ' M416' 更 新 为 ' P92',， 也 就 是 从 4 字 节 更 新 为 3 字 节 ， 这 就 不 满足 
就 地 更 新 的 条 件 了 ， 所 以 不 能 进行 就 地 更 新 。 但 是 ， 如 果 UPDATE 语句 是 下 面 这 样 : 
UPDATE undo demo 
SET keyl = 'M249', col = ' 机 枪 * 
WHERE id = 2; 
由 于 各 个 被 更 新 的 列 在 更 新 前 后 所 占用 的 存储 空间 是 一 样 大 的 ， 所 以 这 样 的 语句 可 以 使 用 就 地 
更 新 。 
e@e 先 删除 旧 记 录 ， 再 插入 新 记录 
在 不 更 新 主键 的 情况 下 ， 如 果 有 任何 一 个 被 更 新 的 列 在 更 新 前 和 更 新 后 占用 的 存储 空间 大 
小 不 一 致 ， 那 么 就 需要 先 把 这 条 旧 记 录 从 聚 簇 索引 页 面 中 删除 ， 然 后 再 根据 更 新 后 列 的 值 创 建 
一 条 新 的 记录 并 插入 到 页 面 中 。 
请 注意 ， 我 们 这 里 所 说 的 删除 并 不 是 delete mark 操作 ， 而 是 真正 地 删除 掉 ， 也 就 是 把 这 条 记 
录 从 正常 记录 链表 中 移 除 并 加 入 到 垃圾 链表 中 ， 并 且 修 改 页 面 中 相应 的 统计 信息 《比如 PAGE 
FREE、PAGE GARBAGE 等 信息 )。 不 过 ， 这 里 执行 真正 删除 操作 的 线程 并 不 是 在 DELETE 语句 
中 进行 purge 操作 时 使 用 的 专门 的 线程 ， 而 是 由 用 户 线程 同步 执行 真正 的 删除 操作 。 在 真正 删除 之 
后 ， 紧 接着 就 要 根据 各 个 列 更 新 后 的 值 来 创建 一 条 新 记录 ， 然 后 把 这 条 新 记录 插入 到 页 面 中 。 
如 果 新 创建 的 记录 占用 的 存储 空间 不 超过 旧 记 录 占 用 的 空间 ， 那 么 可 以 直接 重用 加 入 到 垃 
圾 链表 中 的 旧 记 录 所 占用 的 存储 空间 ， 否 则 需要 在 页 面 中 新 申请 一 块 空间 供 新 记录 使 用 。 如 果 
本 页 面 内 已 经 没有 可 用 的 空间 ， 就 需要 进行 页 面 分 裂 操 作 ， 然 后 再 插入 新 记录 。 
针对 UPDATE 操作 不 更 新 主键 的 情况 (包括 上 面 说 的 就 地 更 新 和 先 删 除 旧 记 录 再 插入 新 
记录 )， 设 计 InnoDB 的 大 叔 设计 了 一 种 类 型 为 TRX UNDO UPD EXIST REC 的 undo 日 志 ， 
它 的 完整 结构 如 图 20-15 所 示 。 
其 实 这 个 undo 日 志 的 大 部 分 属性 与 前 面 介绍 过 的 TRX_UNDO _ DEL MARK REC 类 型 的 
undo 日 志 是 类 似 的 ， 不 过 还 是 要 注意 下 面 几 点 。 
e@e n updated 属性 表示 在 本 条 UPDATE 语句 执行 后 将 有 几 个 列 被 更 新 ， 后 边 跟着 的 <pos， 
old len, old value> 列表 中 的 pos、old_ len 和 old_value 分 别 表示 被 更 新 列 在 记录 中 的 位 
置 、 更 新 前 该 列 占用 的 存储 空间 大 小 、 更 新 前 该 列 的 真实 值 。 
e@e ”如果 在 UPDATE 语句 中 更 新 的 列 包 含 索引 列 ， 那 么 也 会 添加 “索引 列 各 列 信息 ”这 个 
部 分 ， 和 否则 不 会 添加 这 个 部 分 。 
现在 ， 继 续 在 前 面 那 个 事务 id 为 100 的 事务 中 更 新 一 条 记录 。 比 如 把 id 为 2 的 那 条 记录 
更 新 一 下 : 
BEGIN; ”# 显 式 开启 一 个 事务 ， 假 设 该 事务 的 id 为 100 
# 插入 两 条 记录 
INSERT INTO undo demol(id, keyl, col) 


VALUES (1，'AWM' ,，' 狙 击 枪 ')， (2，'M416'，' 步 枪 ')， 


# 删除 一 条 记录 


Si A 


DELETE FROM undo demo WHERE id = 1; 





20.3 undo 日志 的 格式 





# 更 新 一 条 记录 
UPDATE undo demo 

SET keyl = 'M249', col = ‘机枪 ' 
WHERE id = 2; 


Ve ps 珂 人 





table id er 
人 bits |i 记录 头 信息 的 前 4 个 比特 的 值 


旧 记 录 的 roll pointer 值 


被 更 新 的 列 更 新 前 信息 


也 就 是 下 边 的 “索引 列 各 列 信息 ”部 分 
和 本 部 分 占用 的 存储 空间 大 小 


图 20-15 TRX UNDO_UPD _ EXIST REC 类 型 的 undo 日 志 


这 个 UPDATE 语句 更 新 的 列 大 小 都 没有 改动 ， 所 以 可 以 采用 就 地 更 新 的 方式 来 执行 。 在 
真正 改动 页 面 记 录 前 ， 会 先 记 录 二 条 类 型 为 TRX_UNDO_UPD _ EXIST REC 的 undo 日 志 ， 如 
图 20-16 所 示 。 
企图 20-16 中 ， 我 们 需要 注意 下 面 这 几 个 地 方 。 
。 因为 这 条 undo 日 志 是 id 为 100 的 事务 中 产生 的 第 4 条 undo 日 志 ， 所 以 它 对 应 的 undo 
no 束 是 3。 
e 这 条 日 志 的 roll_pointer 指向 undo no 为 1 的 那 条 日 志 ， 也 就 是 在 插入 主键 值 为 2 的 记 
采 时 产生 的 那 条 undo 日 志 ， 也 就 是 上 一 次 对 该 记录 进行 改动 时 产生 的 undo 日 志 。 
。 由 于 本 条 UPDATE 语句 中 更 新 了 索引 列 keyl 的 值 ， 所 以 需要 记录 “索引 列 各 列 信息 ” 
部 分 ， 也 就 是 填 入 主键 和 keyl 列 的 信息 。 
2， 更 新 主键 


在 肾 匀 索引 中 ， 记 录 按 照 主键 值 的 大 小 连 成 了 一 个 单 向 链表 。 如 果 我 们 更 新 了 某 条 记录 的 
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主键 值 ， 意 味 着 这 条 记录 在 聚 秘 索 引 中 的 位 置 将 会 发 生 改 变 。 比 如 将 记录 的 主键 值 从 1 更 新 
为 10.000， 如 果 此 时 还 有 很 多 记录 的 主键 值 分 布 在 1 一 10,000 之 间 ， 那 么 主键 值 为 1 和 主键 
值 为 1,000 的 两 条 记录 在 聚 簇 索引 中 就 有 可 能 离 得 非常 远 ， 甚 至 中 间隔 了 好 多 个 页 面 。 针 对 
UPDATE 语句 中 更 新 了 记录 主键 值 的 这 种 情况 ，InnoDB 在 聚 簇 索引 中 分 了 两 步 进行 处 理 。 


TRX UNDO EXIST REC 类 型 的 undo 日 志 结 构 


end of record 


| table id 







undo type 


undo no 











邢 扯 ' end of record 


13% 
~ | info bits 





| 过 


| roll pointer 

ET Se ER 7 2 
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1 undo no 





| table id 





主键 各 列 信 息 





主键 各 列 信 息 : 
<len ，vajlue> 列 表 


n_updated | start of record 


被 更 新 的 列 更 新 前 信息 
本 部 分 和 下 一 个 部 分 占用 
的 存储 空间 大 小 


| 索引 列 各 列 信息 : 
<pos，len，value> 列 表 


Hb 十 上 一 条 undo 日 志 结 束 ， 本 
es 条 开始 时 在 页 面 中 的 地 址 


图 20-16 类 型 为 TRX UNDO UPD EXIST REC 的 undo 日 志 





步骤 1. 将 旧 记 录 进 行 delete mark 操作 。 

高 能 注意 : 这 里 是 delete mark 操作 ! 也 就 是 说 ， 在 UPDATE 语句 所 在 的 事务 提交 前 ， 对 
旧 记 录 只 执行 一 个 delete mark 操作 ， 在 事务 提交 后 才 由 专门 的 线程 执行 purge 操作 ， 从 而 把 它 
加 入 到 垃圾 链表 中 。 这 里 一 定 要 与 前 面 说 的 “在 不 更 新 记录 主键 值 时 ， 先 真正 删除 旧 记 录 ， 再 
插入 新 记录 ”的 方式 区 分 开 ! 
a 之 所 以 只 对 旧 记 录 执 行 delete mark 操作 ， 是 因为 别 的 事务 也 可 能 同时 访问 这 条 记 
9: 录 ， -如果 把 它 真正 删除 并 加 入 到 垃圾 链表 后 ， 别 的 事务 就 访问 不 到 了 . 这 个 功能 就 是 
小 贴 士 NMVCC;, 第 .21 章 会 详细 踪 外 什么 是 MVCC. 


步骤 2， 根据 更 新 后 各 列 的 值 创 建 一 条 新 记录 ， 并 将 其 插入 到 聚 簇 索引 中 。 
由 于 更 新 后 的 记录 主键 值 发 生 了 改变 ， 所 以 需要 重新 从 聚 簇 索 引 中 定位 这 条 记录 所 在 的 位 
置 ， 然 后 把 它 插 进 去 。 
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针对 UPDATE oa 在 对 该 记录 进行 delete mark 操作 时 ， 会 
记录 一 条 类 型 为 TRX_UNDO D _MARK _REC 的 undo 日 志 ; 之 后 插入 新 记录 时 ， 会 记录 一 


条 类 型 为 TRX_UNDO _INSERT REC 的 undo 日 志 。 也 就 是 说 ， 每 对 一 条 记录 的 主键 值 进 行 改 
动 ， 都 会 记录 2 条 undo 上 日志。 这 些 日 志 的 格式 都 在 前 面 啼 电 过 了 ， 就 不 装 述 了 ，。 


和 Vern ~" 







->>X- 其 实 还 有 一 种 名 为 TRX_UNDO_UPD_DEL REC 的 undo 日 志 的 类 型 没有 介绍 ， 主 
要 是 想 避 免 引入 过 多 的 秘 杂 性 . 如 果 大 家 对 这 种 类 型 的 undo 日 志 感 兴趣 ， 可 以 自行 查 - 
小 贴 士 ” 询 相关 资料 资料 。 ns A 


一 个 表 可 以 拥有 一 个 聚 簇 索 引 以 及 多 个 二 级 索引 ， 前 面 晓 四 的 都 是 增删 改 操 作对 聚 簇 索引 
记录 所 做 的 影响 。 对 于 二 级 索引 记录 来 说 ，INSERT 操作 和 DELETE 操作 与 在 聚 簇 索引 中 执行 
时 产生 的 影响 差不多 ， 但 是 UPDATE 操作 稍微 有 点 儿 不 同 。 如 果 我 们 的 UPDATE 语句 中 没有 
涉及 二 级 索引 的 列 ， eT 

UPDATE undo demo 


SET col = ' 手 枪 ' 
WHERE id = 2; 


那么 就 不 需要 对 二 级 索引 执行 任何 操作 。 相 反 ， 如 果 在 UPDATE 语句 中 涉及 了 二 级 索引 的 列 ， 
比如 下 面 这 个 语句 : 


UPDATE undo demo 
SET keyl = 'P92', col = ! 
WHERE id = 2; 





由 于 这 个 语句 涉及 了 keyl 列 ， 而 keyl 列 又 包含 在 二 级 索引 idx_keyl 中 ， 所 以 这 相当 于 更 新 
本 二 级 索引 的 键 值 。 更 新 了 二 级 索引 记录 的 键 值 ， 就 意味 着 要 进行 下 面 这 两 个 操作 。 
e 对 旧 的 二 级 索引 记录 执行 delete mark 操作 (是 delete mark 操作 ， 而 不 是 彻底 将 这 条 二 
级 索引 记录 删除 ， 这 主要 是 考虑 到 后 面 章节 要 崂 路 的 MVCC)。 
e 根据 更 新 后 的 值 创 建 一 条 新 的 二 级 索引 记录 ， 然后 在 二 级 索引 对 应 的 B+ 树 中 重新 定 
位 到 它 的 位 置 并 插 进 去 。 
帮 外 需要 强调 的 一 点 是 ， 虽 然 只 有 聚 簇 索引 记录 才 有 tr id、 roll_pointer 这 些 属性 ， 不 过 
每 当 我 们 增删 改 一 条 二 级 索引 记录 时 ， 都 会 影响 这 条 二 级 索引 记录 所 在 页 面 的 Page Header 部 


分 中 一 个 名 为 PAGE_MAX TRX ID 的 属性 。 这 个 属性 代表 修改 当前 页 的 最 大 的 事务 id。 请 大 
家 记 住 这 个 属性 ， 后 面 会 用 到 。 


20.4 通用 链表 结构 


前 面 主要 啼 归 了 为 什么 需要 undo 日 志 ， 以 及 INSERT、DELETE、UPDATE 这 些 用 来 改动 
数据 的 语句 都 会 产生 什么 类 型 的 undo 日 志 ， 还 有 不 同类 型 的 undo 日 志 的 具体 格式 是 什么 。 下 
面 继 续 啼 明 这 些 undo 日 志 会 被 具体 写 到 什么 地 方 ， 以 及 在 写 入 过 程 中 需要 注意 的 问题 。 在 写 
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入 undo 日 志 的 过 程 中 ， 会 用 到 多 个 链表 。 很 多 链表 都 有 同样 的 节点 结构 ， 如 图 20-17 所 示 。 


总 共 是 12 字 节 / | 一 





字段 相当 于 


这 两 个 字段 相当 于 
指向 前 一 个 节点 的 指针 
这 两 个 

指向 后 一 个 节点 的 指针 





20-17 链表 节点 结构 示意 图 


在 某 个 表 空 间 内 ， 我 们 可 以 通过 一 个 页 的 页 号 与 在 页 内 的 偏 移 量 来 唯一 定位 一 个 节点 的 位 z 
置 。 这 两 个 信息 相当 于 指向 这 个 节点 的 一 个 指针 ， 所 以 : 

@ Prev Node Page Number 和 Prev Node Offset 的 组 合 就 是 指向 前 一 个 节点 的 指针 ; 

e@ Next Node Page Number 和 Next Node Offset 的 组 合 就 是 指向 后 一 个 节点 的 指针 。 

整个 链表 节点 占用 12 字 节 的 存储 空间 。 

为 了 更 好 地 管理 链表 ， 设 计 InnoDB 的 大 叔 还 提出 了 一 个 基 节 点 的 结构 。 这 个 结构 里 面 存 储 
了 这 个 链表 的 头 节点 、 尾 节点 以 及 链表 长 度 信 息 。 链 表 基 节点 的 结构 示意 图 如 图 20-18 所 示 。 


四 这 两 个 字段 是 指向 
| 「 链表 头 节点 的 指针 





图 20-18 链表 基 节 点 结构 示意 图 


@ First Node Page Number 和 First Node Offset 的 组 合 就 是 指向 链表 头 节 点 的 指针 ; 
使 用 链表 基 节 点 和 链表 节点 这 两 个 结构 组 成 的 链表 示意 图 如 图 20-19 所 示 。 


Ae * | < 
GUY me AAA 本 有 : 
‘Last Node Page Numtb 二 
“Last Node Page Nu 
时 了 了 - 
其 中 ， 
Last Node Page Number 和 Last Node Offset 的 组 合 就 是 指向 链表 尾 节点 的 指针 。 
A ‘ | $ 
My 局 7 2 pe 
+ 本 人 人 Wh 2 - 
Yi EE es se 二、 A uy a - | , re - y: 
eng: 全 呈 返 Dh - | 《 A em - 六 
全 - 4 FF | AP Pi 
» /gr yy Sp td CC eb | A > fe 
DT next* yet TS 了 
en A ~ Re ~ ey 站 必 es Mr -一 ee 和 一 
~ COUN 





e List Length 表明 该 链表 一 共有 多 少 节点 ; 
整个 链表 基 节 点 占用 16 字 节 的 存储 空间 。 
图 20-19 链表 基 节 点 和 链表 节点 组 成 的 链表 的 示意 图 
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| 


i 上 流 链 表 结 构 在 前 夯 章 节 中 频频 提 到 ， 刀 其 是 在 第 9 章 生 点 禄 六 过 。 条 过 才 末 宁 芝 
2 求 大 家 都 记 住 了 ， 所 以 在 这 里 又 强调 一 遍 。 和 希望 大 家 不 要 嫌 烦 ， 如 果 大 家 忘记 了 : 在 学 
小 贴 士 ” 习 后 续 内 容 时 会 比较 吃力 . 


20.5 _FIL_PAGE_UNDO _ LOG 页 面 


第 9 章 在 踪 叫 表 空 间 的 时 候 说 过 ， 表 空 间 其 实 是 由 许 许 多 多 的 页 面 构成 的 ， 页 面 默认 大 小 
为 16KB。 这 些 页 面 有 不 同 的 类 型 ， 比 如 类 型 为 FIL_ PAGE INDEX 的 页 面 用 于 存储 聚 艇 索引 
以 及 二 级 索引 ， 类 型 为 FIL PAGE_TYPE FSP_HDR 的 页 面 用 于 存储 表 空 间 头 部 信息 。 此 外 ， 
还 有 其 他 各 种 类 型 的 页 面 ， 其 中 有 一 种 名 为 FIL_PAGE_UNDO_LOG 类 型 的 页 面 是 专门 用 来 存 
储 undo 日 志 的 。 这 种 类 型 的 页 面 的 通用 结构 如 图 20-20 所 示 (以 默认 的 16KB 大 小 为 例 )。 


总 共 是 16KB 此 处 用 于 存放 真正 的 undo 日 志 


以 及 一 些 其 他 的 东西 
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图 20-20 FIL PAGE_ UNDO LOG 类 型 的 页 面 的 通用 结构 


“类 型 为 FIL PAGE UNDO LOG 的 页 ”这 种 说 法 太 绕 口 ， 以 后 我 们 就 简称 为 Undo 页 面 了 。 
20-20 中 的 File Header 和 File Trailer 是 各 种 页 面 都 有 的 通用 结构 ， 之 前 啼 归 过 很 多 遍 了 ， 这 里 
就 不 次 述 了 。Undo Page Header 是 Undo 页 面 特有 的 ， 我 们 来 看 一 下 它 的 结构 〈 见 图 20-21)。 


38B 
40B 
42B 


44B 





56B 
图 20-21 Undo Page Header 的 结构 


其 中 各 个 属性 的 意思 如 下 。 
9 IRX_UNDO PAGE TYPE : 本 页 面 准 备 存 储 什么 类 型 的 undo 日 去 。 


| Ee I 
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前 文 介绍 了 好 几 种 类 型 的 undo 日 志 ， 它 们 可 以 被 分 为 两 个 大 类 .。 

TRX UNDO INSERT (使 用 十 进 制 1 表示 ): 类 型 为 TRX UNDO INSERT REC 
的 undo 日 志 属 于 这 个 大 类 ， 一 般 由 INSERT 语句 产生 ; 当 UPDATE 语句 中 有 
更 新 主键 的 情况 时 也 会 产生 此 类 型 的 undo 日 志 。 我 们 把 属于 这 个 TRX UNDO _ 
INSERT 大 类 的 undo 日 志 简称 为 insert undo 日 志 。 

TRX UNDO _UPDATE (使 用 十 进 制 2 表示 )， 除 了 类 型 为 TRX UNDO INSERT 
REC 的 undo 日 志 ， 其 他 类 型 的 undo 日 志 都 属于 这 个 大 类 ， 比 如 前 面 说 的 TRX_ 
UNDO DEL MARK REC、TRX UNDO UPD EXIST REC 等 。 一 般 由 DELETE、 
UPDATE 语句 产生 的 undo 日 志 属 于 这 个 大 类 。 我 们 把 属于 这 个 TRX UNDO 
UPDATE 大 类 的 undo 日 志 简 称 为 update undo 日 志 。 

这 个 TRX_UNDO_PAGE_TYPE 属性 的 可 选 值 就 是 上 面 这 两 个 ， 用 来 标记 本 页 面 用 于 | 
存储 哪个 大 类 的 undo 日 志 。 不 同 大 类 的 undo 日 志 不 能 混 着 存储 ， 比 如 一 个 Undo 页 面 的 
TRX UNDO PAGE TYPE 属性 值 为 TRX UNDO INSERT， 那么 这 个 页 面 就 只 能 存储 类 型 
为 TRX UNDO _ INSERT REC 的 undo 日 志 ， 其 他 类 型 的 undo 日 志 就 不 能 放 到 这 个 页 面 中 了 。 


之 所 以 把 undo- 日 志 分 成 2 个 大 类 ， 是 因为 类 型 为 TRX UNDO _ INSERT REC 的 
~ - ,undo 日 志 在 事 务 提交 后 可 以 直接 删除 掉 ， 而 其 他 类 型 的 undo 日 志 还 需要 为 MVCC 服 务 ， 
9 不 能 直接 删除 掉 ， 因此 对 它们 的 处 理 需要 区 别 对 待 . 当然 ，MVCC 的 内 容 我 们 下 一 
小 贴 士 “ 章 才 会 讲 ， 现在 类 大 进 ond 日 志 分 为 2 个 大 类 就 好 了 ， 更 详细 的 内 容 会 在 后 面 仔 

细 啼 中 . 


e TRX UNDO _ PAGE _ START : 表示 在 当前 页 面 中 从 什么 位 置 开 始 存 储 undo 日 志 ， 或 
者 说 表示 第 一 条 undo 日 志 在 本 页 面 中 的 起 始 偏 移 量 。 
e@e TRX UNDO PAGE FREE : 与 上 面 的 TRX UNDO PAGE START 对 应 ， 表 示 当 前 页 
面 中 存储 的 最 后 一 条 undo 日 志 结束 时 的 偏 移 量 ; 或 者 说 从 这 个 位 置 开 始 ， 可 以 继续 写 
入 新 的 undo 日 志 。 
假设 现在 向 页 面 中 写 入 了 3 条 undo 日 志 ， 那 么 TRX_ UNDO PAGE START 和 TRX UNDO 
PAGE _FREE 的 示意 图 如 图 20-22 所 示 。 





图 20-22 TRX UNDO _ PAGE START 和 TRX UNDO PAGE FREE 的 示意 图 


当然 ， 在 最 初 一 条 undo 日 志 也 没 写 入 的 情况 下 ,TRX _UNDO PAGE START 和 TRX 
UNDO PAGE FREE 的 值 是 相同 的 。 
e TRX UNDO PAGE_NODE : 代表 一 个 链表 节点 结构 (前 文 刚 说 过 )。 下 边 马 上 用 到 这 
个 属性 ， 少 安 毋 躁 。 


A 


LE > “Wp 
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一 20.6 Undo 页 面 甸 表 361 
20.6 ”Undo 页 面 链表 


20.6.1 单个 事务 中 的 Undo 页 面 链表 


因为 一 个 事务 可 能 包含 多 个 语句 ， 而 且 一 个 语句 可 能 会 对 若干 条 记录 进行 改动 ， 而 对 每 条 
记录 进行 改动 前 (再 强调 一 下 ， 这 里 指 的 是 聚 簇 索 引 记录 )， 都 需要 记录 1 条 或 2 条 undo 日志。 
所 以 在 一 个 事务 执行 过 程 中 可 能 产生 很 多 undo 日 志 。 这 些 日 志 可 能 在 一 个 页 面 中 放 不 下 ， 需 


要 放 到 多 个 页 面 中 。 这 些 页 面 就 通过 前 文 介绍 的 TRX_UNDO_PAGE NODE 属性 连 成 了 链表 ， 
如 图 20-23 所 示 。 | 


FTL_PAGE_UNDO LOG 页 < 页 ”FIL_PAGE_UNDO LOG 页 FIL_PAGE_UNDO LOG 页 
| 














我 们 把 链表 中 的 第 一 个 页 面 
称 为 first undo page 





我 们 把 链表 中 的 其 他 页 面 称 为 
normal undo page 





图 20-23 Undo 页 面 链表 


大 家 往 上 再 隔 一 爽 图 20-23， 我 们 特意 把 链表 中 的 第 一 个 Undo 页 面 给 标 了 出 来 ， 称 它 为 
first undo page。 其 余 的 Undo 页 面 称 为 normal undo page， 这 是 因为 在 first undo page 中 除了 包 
含 Undo Page Header 之 外 ， 还 会 包含 其 他 的 一 些 管理 信息 (这 个 稍 后 再 说 )。 

企 一 个 事务 的 执行 过 程 中 ， 林 能 会 混 着 执行 INSERT、DELETE、UPDATE 语句 ， 这 也 就 
意味 着 会 产生 不 同类 型 的 undo 日 志 。 但 是 前 面 又 强调 过 ， 同 一 个 Undo 页 面 要 么 只 存储 TRX 
UNDO_INSERT 大 类 的 undo 日 志 ， 要 么 只 存储 TRX_UNDO _ UPDATE 大 类 的 undo 日 志 ， 不 
能 混 着 存储 。 所 以 在 一 个 事务 的 执行 过 程 中 就 可 能 需要 2 个 Undo 页 面 的 链表 : 一 个 称 为 


insert undo 链表 ; 另 一 个 称 为 中 undo 链表 ， 如 图 20-24 所 示 。 


| 
FIL_FAGE_UNDO LOG 可 FIL PAGE UNDO LOGKN Fll_PAGE UNDO LOG 页 





人 | - 7 轧 和 Es F< ' Bed ee 
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| i 
J -ne We 2 

FiL PAGE UNDO LOG FiL PAGE_ UNDO LOG 页 FIL_PAGE_ UNDO LOG 页 FilL_PAGE UNDO LOGN 





update undo 链 表 : 





图 20-24 insert undo 和 update undo 链表 


另外 ， 设 计 InnoDB 的 大 叔 规 定 ， 在 对 普通 表 和 临时 表 的 记录 改动 时 所 产生 的 undo 日 志 
要 分 别 记录 ( 稍 后 阐释 为 喻 这 么 做 )。 所 以 在 一 个 事务 中 最 多 有 4 个 以 Undo 页 面 为 节点 组 成 
的 链表 ， 如 图 20-25 所 示 。 


a | 
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普通 表 的 undo 日 志 : 


临时 表 的 undo 日 志 ; 





图 20-25 一 个 事务 中 最 多 有 4 个 以 Undo 页 面 为 节点 组 成 的 链表 


当然 ， 并 不 是 在 事务 一 开始 就 为 它 分 配 这 4 个 链表 ， 具 体 分 配 策略 如 下 : 

e 刚 开 启事 务 时 ， 一 个 Undo 页 面 链 表 也 不 分 配 ; 

e 当 事 务 执行 过 程 中 向 普通 表 揪 入 记录 或 者 执行 更 新 记录 主键 的 操作 之 后 ， 就 会 为 其 分 
配 一 个 普通 表 的 insert undo 链表 ; 

e 当 事 务 执行 过 程 中 删除 或 者 更 新 了 普通 表 中 的 记录 之 后 ， 就 会 为 其 分 配 一 个 普通 表 的 
update undo 链表 ; 

e 当 事 务 执行 过 程 中 向 临时 表 择 入 记录 或 者 执行 更 新 记录 主键 的 操作 之 后 ， 就 会 为 其 分 
配 一 个 临时 表 的 insert undo 链表 ; 

e 当 事 务 执行 过 程 中 删除 或 者 更 新 了 临时 表 中 的 记录 之 后 ， 就 会 为 其 分 配 一 个 临时 表 的 
update undo 链表 。 

总 之 就 是 : 按 需 分 配 ， 啥 时 候 需 要 啥 时 候 分 配 ， 不 需要 就 不 分 配 。 


20.6.2 多 个 事务 中 的 Undo 页 面 链表 


为 了 尽 可 能 提高 undo 日 志 的 写 入 效率 ， 不 同事 务 执行 过 程 中 产生 的 undo 日 志 需 要 写 入 不 
同 的 Undo 页 面 链表 中 。 比 如 ， 现 在 有 事务 id 分别 为 1 和 2 的 2 个 事务 ， 我 们 分 别称 之 为 trx 
1 和 tr 2。 假 设 在 这 两 个 事务 执行 过 程 中 ， 发 生 了 如 下 操作 。 

e trx 1 对 普通 表 执 行 了 DELETE 操作 ， 对 临时 表 执 行 了 INSERT 和 UPDATE 操作 。 

InnoDB 会 为 trx 1 分 配 3 个 链表 ， 分 别 是 : 
”针对 普通 表 的 update undo 链表 ; 

中 ”针对 临时 表 的 insert undo 链表 ; 

嘿 ”针对 临时 表 的 update undo 链表 。 

e trx 2 对 普通 表 执 行 了 INSERT、UPDATE 和 DELETE 操作 ， 没 有 改动 临时 表 。InnoDB 
会 为 trx 2 分 配 2 个 链表 ， 分 别 是 : 
”针对 普通 表 的 insert undo 链表 ; 
”针对 普通 表 的 update undo 链表 。 
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综 上 所 述 ,， 在 trx 1 和 trx 2 i InnoDB 共 需 为 这 2 个 事务 分 配 5 个 Undo 页 面 
链表 ， 如 图 20-26 所 示 。 


trx1 的 Undo 页 面 链表 


trx2 的 Undo 页 面 链表 





图 20-26 ”InnoDB 为 2 个 事务 分 配 5 个 Undo 页 面 链表 
如 果 有 更 多 的 事务 ， 就 意味 着 可 能 会 产生 更 多 的 Undo 页 面 链表 。 


20.7/ Undo 日 二 志 具 体 写 入 过 寸 程 


20.7.1 段 的 概念 


如 果 大 家 非常 认真 地 看 过 第 9 章 的 话 ， 对 段 segment) 的 概念 应 该 印象 深刻 ， 我 们 当时 
花 了 非常 多 的 篇 幅 来 路 切 这 个 概念 。 简 单 来 讲 ， 这 个 段 是 一 个 逻辑 上 的 概念 ， 本 质 上 是 由 基干 
个 零散 页 面 和 若干 个 完整 的 区 组 成 的 。 

比如 ， 一 个 B+ 树 索 引 补 划分 成 两 个 一 个 叶子 节点 段 和 一 个 非 叶 子 节点 段 。 这 样 叶子 
节点 就 可 以 被 尽 可 能 地 存放 到 一 起 ， 非 叶子 节点 被 尽 可 能 地 存放 到 一 起 。 每 一 个 段 对 应 一 个 
INODE Entry 结构 。 这 个 INODE Entry 结构 描述 了 这 个 段 的 各 种 信息 ， 比 如 段 的 ID、 段 内 的 
各 种 链表 基 节 点 、 零 散 页 面 的 页 号 有 哪些 等 《有关 该 结构 中 每 个 属性 的 具体 意思 ， 可 以 到 第 9 
章 再 温习 一 下 )。 前 面 的 章节 也 说 过 ， 为 了 定位 一 个 INODE Entry， 设 计 InnoDB 的 大 叔 设计 了 
一 个 Segment Header 的 结构 ， 如 图 20-27 所 示 。 


THINODE Emryr (4 


peimber ot the DNODE Poaty >) 


Byte Offsct of the NOQDE Entry (2 字 动 ) 





图 20-27 ” Segment Header 结构 


整个 Segment Header 占用 10 字 节 ， 各 个 属性 的 意思 如 下 。 
e Space ID of the INODE Entry : INODE Entry 结构 所 在 的 表 空 间 ID。 











364 ”第 20 章 后 悔 了 怎么 办 一 一 undo 日 志 


e Page Number of the INODE Entry : INODE Entry 结构 所 在 的 页 面 页 号 。 
e Byte Offset of the INODE Entry : INODE Entry 结构 在 该 页 面 中 的 偏 移 量 。 
知道 了 表 空 间 ID、 页 号 、 页 内 偏 移 量 ， 就 可 以 唯一 定位 一 个 INODE Entry 的 地 址 了 。 


兆 : 关于 所 的 各 各 概念 者 在 第 9 章 有 评 细 解 矢 ， 这 里 进行 重 浊 的 目的 只 是 为 了 吹 本 大 家 


,ME 上 “沉睡 的 记忆 。 如果 有 任何 不 清楚 的 地 方 ， 可 以 再 次 细 读 第 9 章 ， 


20.7.2 Undo Log Segment Header 


设计 InnoDB 的 大 叔 规定 ， 每 一 个 Undo 页 面 链 表 都 对 应 着 一 个 段 ， 称 为 Undo Log Segment。 
也 就 是 说 ， 链 表 中 的 页 面 都 是 从 这 个 段 中 申请 的 ， 所 以 他 们 在 Undo 页 面 链表 的 第 一 个 页 
面 〈 也 就 是 前 面 提 到 的 first undo page) 中 设计 了 一 个 名 为 Undo Log Segment Header 的 部 分 。 
这 个 部 分 包含 了 该 链表 对 应 的 段 的 Segment Header 信息 ， 以 及 其 他 一 些 关 于 这 个 段 的 信息 。 
Undo 页 面 链表 的 第 一 个 页 面 如 图 20-28 所 示 。 


总 共 是 16KB 
此 处 用 于 存放 真正 的 undo 日 志 


以 及 一 些 其 他 的 东 东 





20-28 ”Undo 页 面 链表 的 第 一 个 页 面 结构 示意 图 

可 以 看 到 ， 这 个 Undo 页 面 链 表 的 第 一 个 页 面 比 普通 页 面 多 了 一 个 Undo Log Segment Header， 

我 们 来 看 一 下 它 的 结构 ， 如 图 20-29 所 示 。 
S6B 

TRX UNDO STATE | 2B 


58B 
IRXSUNDO TAST 1.OG 2B 


60B 
RX UNDO FSECG HEADER | 10B 


70B 


RX UNDO PAGE THIST | 





86B 
图 20-29 Undo Log Segment Header 结构 





天 
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其 中 各 个 属性 的 意思 如 下 。 


。 TRX_UNDO_STATE : 本 Undo 页 面 链表 处 于 什么 状态 。 可 能 的 状态 有 下 面 几 种 。 
" TRX_UNDO_ACTIVE : 活跃 状态 ， 也 就 是 一 个 活跃 的 事务 正在 向 这 个 Undo 页 面 
链表 中 写 入 undo 日 志 。 


e TRX. UNDO PAGHIS 锌 缓存 的 状态 。 处 于 该 状态 的 Undo 页 面 链 表 等 待 之 后 被 
其 他 事务 重用 。 
" TRX_UNDO_TO_FREE : 等 待 被 释放 的 状态 。 对 于 insert undo 链表 来 说 ， 如 果 在 
它 对 应 的 事务 提交 之 后 ， 该 链表 不 能 被 重用 ， 那 么 就 会 处 于 这 种 状态 。 | 
1 "IRX_UNDO_TO_PURGE : 等 待 被 purge 的 状态 。 对 于 update undo 链表 来 说 ， 如 
术 在 它 对 应 的 事务 提交 之 后 ， 该 链表 不 能 被 重用 ， 那 么 就 会 处 于 这 种 状态 。 
。 TRX_UNDO_PREPARED : 处 于 此 状态 的 Undo 页 面 链表 用 于 存储 处 于 PREPARE 
阶段 的 事务 产生 的 日 


< Undo 页面 链表 什么 时 候 会 被 重用 以 及 怎么 重用 ,会 在 后 面 详细 说 的 ， 事务 的 
外、 PREPARE 阶段 是 在 分 布 民 事务 中 才 出 现 的 ， 本 书 不 会 介绍 更 多 关于 分 布 式 事务 的 内 容 ， 


小 贴 士 ”所 以 大 家 目前 忽略 这 个 状态 就 好 了 。 





z 加 TO : 本 Undo 页 面 链表 中 最 后 一 个 Undo Log Header 的 位 置 。 
Undo Log Header 的 内 容 稍 后 马上 介绍 . 


® IRX_UNDO _FSEG_HEADER : 本 Undo 页 面 链表 对 应 的 段 的 Segment Header 信息 (就 
是 20.7.1 节 介绍 的 那个 10 字 节 结构 ， 通 过 这 个 信息 可 以 找到 该 段 对 应 的 INODE Entry)。 
| © TRX_UNDO_PAGE_LIST : Undo 页 面 链表 的 基 节 点 。 
前 面 讲 到 ，Undo 页 面 的 Undo Page Header 部 分 有 一 个 12 字 节 大 小 的 TRX UNDO PAGE NODE 
属性 ， 这 个 属性 代表 一 个 链表 节点 结构 。 每 一 个 Undo 页 面 都 包含 TRX UNDO PAGE NODE 属性 ， 
这 些 页 面 可 以 通过 这 个 属性 连 成 一 个 链表 。 这 个 TRX_UNDO PAGE LIST 属性 代表 这 个 链表 的 基 
节点 ， 当 然 这 个 基 节 点 只 存在 于 Undo 页 面 链表 的 第 一 个 页 面 〈 也 就 是 frstundo page) 中 。 


| 
20.1.3 Undo Log Header 


一 个 事务 在 向 Undo 页 面 中 写 入 undo 日 志 时 ， 采 用 的 方式 是 十 分 简单 粗暴 的 ， 就 是 直接 
往 里 “ 堆 ”?， 写 完 一 条 紧 接 着 写 另 一 条 ， 各 条 undo 日 志 是 亲密 无 间 的 。 写 完 一 个 Undo 页 面 后 ， 
再 从 段 中 申请 一 个 新 页 面 ， 然 后 把 这 个 页 面 插入 到 Undo 页 面 链表 中 ， 继 续 往 这 个 新 申请 的 页 
面 中 写 undo 日 志 。 

设计 InnoDB 的 大 叔 认为 ， 同一 个 事务 向 一 个 Undo 页 面 链表 中 写 入 的 undo 日 志 算是 一 个 
组 。 比 如 前 面 介绍 的 trx 1 由 于 会 分 配 3 个 Undo 页 面 链 表 ， 也 就 会 写 入 3 个 组 的 undo 日 志 ， 
trx 2 由 于 会 分 配 2 个 Undo 页 面 链表 ， 也 就 会 写 入 2 个 组 的 undo 日 去 。 在 每 写 入 一 组 undo 日 
志 时 ， 都 会 在 这 组 undo 日 志 前 先 记录 一 下 关于 这 个 组 的 一 些 属性 。 设 计 InnoDB 的 大 叔 把 在 


as 
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储 这 些 属 性 的 地 方 称 为 Undo Log Header。 所 以 Undo 页 面 链表 的 第 一 个 页 面 在 真正 写 入 undo 
日 志 前 ， 其 实 都 会 被 填充 Undo Page Header、Undo Log Segment Header、Undo Log Header 这 3 
个 部 分 ， 如 图 20-30 所 示 。 


38 字 节 
18 字 节 





S6B 上 
30 字 节 
86B 
186 字 节 
总 共 是 16KB 7 
此 处 用 于 存放 真正 的 undo 日 志 
内 Pie 


16KB 
图 20-30 Undo 页 面 链表 的 第 一 个 页 面 结构 示意 图 


这 个 Undo Log Header 具体 的 结构 如 图 20-31 所 示 。 





图 20-31 Undo Log Header 的 结构 

哇 哦 ! 映 入 眼帘 的 又 是 一 大 堆 属 性 。 我 们 先 大 致 看 一 下 它们 都 是 啥 意思 。 

e TRX UNDO TRX ID : 生成 本 组 undo 日 志 的 事务 id。 

e TRX_UNDO_TRX NO : 事务 提交 后 生成 的 一 个 序号 ， 此 序号 用 来 标记 事务 的 提交 顺 
序 〈 先 提交 的 序号 小 ， 后 提交 的 序号 大 )。 

e TRX_UNDO_DEL MARKS : 标记 本 组 undo 日 志 中 是 否 包 含 由 delete mark 操作 产生 
的 undo 日 志 。 

e TRX UNDO LOG START: 表示 本 组 undo 日 志 中 第 一 条 undo 日 志 在 页 面 中 的 偏 移 量 。 

9 TRX UNDO XID EXISTS : 本 组 undo 日 志 是 否 包 含 XID 信息 。 


§. 本 书 不 会 展开 讲述 XID 的 更 多 东西 ， 有 兴趣 的 读者 可 以 自行 阅读 相关 文档 或 材料 . 
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® IRX_UNDO_DICT_TRANS : 标记 本 组 undo 日 志 是 不 是 由 DDL 语句 产生 的 。 

。 IRX_UNDO_TABLE ID : 如 果 TRX UNDO _DICT TRANS 为 真 ， 那么 本 属性 表示 DDL 
语句 操作 的 表 的 table jd。 

。 IRX_UNDO_ NEXT LOG : 下 一 组 undo 日 志 在 页 面 中 开始 的 偏 移 量 。 

。 TRX_UNDO_PREV_LOG : 上 一 组 undo 日 志 在 页 面 中 开始 的 偏 移 量 。 


3 了 


| 
一 般 来 说 ， 一 个 Undo 页 面 链表 只 存储 一 个 事务 执行 过 程 中 产生 的 一 组 ide 日 
志 。 但 是 在 某 些 情况 下 ， 可 能 会 在 一 个 事务 提交 之 后 ， 后 续 开启 的 事务 又 重 复 利用 这 个 
:从 - Undo 页 面 链表 ， 这 就 会 导致 一 个 Undo 页 面 中 可 能 存放 多 组 undo 日 志 - TRX UNDO 
人 2: NEXT_LOG 和 TRX_UNDO_PREV_LOG 就 是 用 来 标记 下 一 组 和 上 一 组 undo 日 志 在 页 
小 贴 士 


面 中 的 偏 移 量 的 。 关 于 什么 时 候 重用 Undo 页 面 链表 ， 以 及 怎么 重用 这 个 链表 ， 会 在 稍 
后 详细 说 明 。 现在 先 理 解 TRX_UNDO_NEXT LOG 和 TRX_UNDO PREV LOG 这 两 个 


人 “一 ™ 


属性 的 意思 就 好 了 。 | 
。 TRX_UNDO_HISTORY_NODE : 一 个 二 字 节 的 链表 节点 结构 ， 代 表 一 个 名 为 History 
链表 的 节点 。 
2 关于 History 链表 ,会 在 下 一 章 详细 啼 银 ， 现 在 先 不 用 管 . 


小 贴 士 


20.7.4 小结 


对 于 没有 被 重用 的 Undo 页 面 链表 来 说 ， 链表 的 第 一 个 页 面 (也 就 是 first undo page) 在 真 
正 写 入 undo 日 志 前 ， 会 填充 Undo Page Header、Undo Log Segment Header、Undo Log Header 
这 3 个 部 分 ， 之 后 才 开 始 正式 写 入 undo 日 志 。 对 于 其 他 页 面 (也 就 是 normal undo page) 来 
说 ， 在 真正 写 入 undo 日 志 前 ， 只 会 填充 Undo Page Header。 链 表 基 节点 存放 到 first undo page 
的 Undo Log Segment Header 部 分 ， 链 表 节 点 信息 存放 到 每 一 个 Undo 页 面 的 Undo Page Header 
部 分 。 我 们 可 以 画 一 个 Undo 页 面 链表 的 示意 图 ( 见 图 20-32)。 





first undo page | 


normal undo page 
图 20-32 ”Undo 页 面 链表 示意 图 





| > = 
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20.8 重用 Undo 页 面 


前 面 说 到 ， 为 了 能 提高 并 发 执行 的 多 个 事务 写 入 undo 日 志 的 性 能 ， 设 计 InnoDB 的 大 叔 
决定 为 每 个 事务 单独 分 配 相 应 的 Undo 页 面 链表 (最 多 可 能 单独 分 配 4 个 链表 )。 但 是 这 也 造 
成 了 一 些 问 题 ， 比 如 大 部 分 事务 在 执行 过 程 中 可 能 只 修改 了 一 条 或 几 条 记录 ， 针 对 某 个 Undo 
页 面 链 表 只 产生 了 非常 少 的 undo 日 志 ， 这 些 undo 日 志 可 能 只 占用 一 点 点 存储 空间 。 每 开启 
一 个 事务 就 新 创建 一 个 Undo 页 面 链表 (虽然 这 个 链表 中 只 有 一 个 页 面 ) 来 存储 这 么 一 点 undo 
日 志 电 不 是 太 浪 费 了 么 ?的 确 是 挺 浪费 ， 于 是 设计 InnoDB 的 大 叔 本 着 勤俭 节约 的 优良 传统 ， 
决定 在 事务 提交 后 的 某 些 情况 下 重用 该 事务 的 Undo 页 面 链 表 。 一 个 Undo 页 面 链表 如 果 可 以 
被 重用 ， 那 么 它 需 要 符合 下 面 两 个 条 件 。 

e 该 链表 中 只 包含 一 个 Undo 页 面 。 

如 果 一 个 事务 在 执行 过 程 中 产生 了 非常 多 的 undo 日 志 ， 那 么 它 可 能 申请 非常 多 的 页 面 加 入 
到 Undo 页 面 链表 中 。 在 该 事务 提交 后 ， 如 果 将 整个 链表 中 的 页 面 都 重用 ， 那 就 意味 着 即使 新 
的 事务 并 没有 向 该 Undo 页 面 链 表 中 写 入 很 多 undo 日 志 ， 该 链表 也 得 维护 非常 多 的 页 面 。 那 些 
用 不 到 的 页 面 也 不 能 被 别 的 事务 所 使 用 ， 这 样 就 造成 了 另 一 种 浪费 。 所 以 设计 InnoDB 的 大 叔 规 
定 ， 只 有 在 Undo 页 面 链表 中 只 包含 一 个 Undo 页 面 时 ， 该 链表 才 可 以 被 下 一 个 事务 所 重用 。 

@ 该 Undo 页 面 已 经 使 用 的 空间 小 于 整个 页 面 空 间 的 3/4。 

如 果 该 Undo 页 面 已 经 使 用 了 本 页 中 绝 大 部 分 的 存储 空间 ， 那 么 重用 该 Undo 页 面 也 得 不 
到 更 多 好 处 。 

前 面 说 过 ， 按 照 存储 的 undo 日 志 所 属 的 大 类 ，Undo 页 面 链 表 可 以 被 分 为 insert undo 链表 
和 update undo 链表 两 种 。 这 两 种 链表 在 被 重用 时 ， 策 略 也 是 不 同 的 ， 我 们 分 别 看 一 下 。 

@ insert undo 链表 

insert undo 链表 中 只 存储 类 型 为 TRX UNDO INSERT REC 的 undo 日 志 。 这 种 类 型 的 
undo 日 志 在 事务 提交 之 后 就 没 用 了 ， 可 以 被 清除 掉 。 所 以 在 某 个 事务 提交 后 ， 在 重用 
这 个 事务 的 insert undo 链表 〈 这 个 链表 中 只 有 一 个 页 面 )》 时 ， 可 以 直接 把 之 前 事务 写 
入 的 一 组 undo 日 志 覆 盖 掉 ， 从 头 开 始 写 入 新 事务 的 一 组 undo 日 志 ， 如 图 20-33 所 示 。 


first undo page 示 意图 first undo page 示 意图 


Undolor Sepment Header 


重用 insert undo 链 表 ， 
在 将 目的 win 日 志和 


=== new undo 1 





图 20-33 ”重用 事务 的 insert undo 链表 
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在 图 20-33 中 ， 假 设 有 一 个 事务 使 用 的 insert undo 链表 。 在 事务 提交 时 ， 只 向 insert undo 
链表 中 插入 了 3 条 undo 日 志 。 这 个 insert undo 链表 只 申请 了 一 个 Undo 页 面 。 如 果 此 时 该 页 
面 已 使 用 的 空间 小 于 整个 页 面 大 小 的 3/4， 那 么 下 一 个 事务 就 可 以 重用 这 个 insert undo 链表 ( 链 
表 中 只 有 一 个 页 面 )。 假 设 此 时 有 一 个 新 事务 重用 了 该 insert undo 链表 ， 那 么 可 以 直接 把 一 组 
旧 的 undo 日 志 履 盖 掉 ， 写 入 一 组 新 的 undo 日 志 。 


当然 ， 在 重用 Undo 页 面 链表 并 写 入 一 组 新 的 undo 日 志 时 ， 不 仅 会 写 入 新 的 Undo 
@: Log Header， 还 会 适当 调整 Undo Page Header、Undo Log Segment Header、Undo Log 


小 贴 十 Header 中 的 一 些 属性 ,上 如 TRX UNDO PAGE START、TRX UNDO _ PAGE FREE 等 ， 
这 些 就 不 具体 啼 嘱 了 . 


@ ”update undo 链表 


在 一 个 事务 提交 后 ， 它 的 update undo 链表 中 的 undo 日 志 不 能 立即 删除 掉 〈 这 些 日 志 
用 于 MVCC， 后 面 章节 会 介绍 )。 如 果 之 后 的 事务 想 重用 update undo 链表 ， 就 不 能 覆 
盖 之 前 事务 写 入 的 undo 日 志 。 这 样 就 相当 于 在 同一 个 Undo 页 面 中 写 入 了 多 组 undo 
日 志 ， 效 果 如 图 20-34 所 示 。 


first undo page 意 图 


FileHeader 


Unido Pape Header 


first undo page 意 图 
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20-34 ”重用 事务 的 update undo 链表 
| 





20.9” 回 深 段 


20.9.1 ” 回 滚 段 的 概念 


我 们 知道 ， 一 个 事务 在 执行 过 程 中 最 多 可 以 分 配 4 个 Undo 页 面 链 表 。 在 同一 时 刻 ， 不 同事 
务 拥有 的 Undo 页 面 链表 是 不 一 样 的 ， 系 统 在 同一 时 刻 其 实 可 以 存在 许多 个 Undo 页 面 链 表 。 为 
了 更 好 地 管理 这 些 链 表 ， 设 计 InnoDB 的 大 叔 又 设计 了 一 个 名 为 Rollback Segment Header 的 页 面 。 
这 个 页 面 中 存放 了 各 个 Undo 页 面 链表 的 first undo page 的 页 号 ， 这 些 页 号 称 为 undo slot。 

我 们 可 以 这 样 理解 : 每 个 Undo 页 面 链表 都 相当 于 是 一 个 班 ， 这 个 链表 的 first undo page 
就 相当 于 这 个 班 的 班长 ; 找到 了 这 个 班 的 班长 后 ， 就 可 以 找到 班 里 的 其 他 同学 (其 他 同学 相当 
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于 normal undo page)。 有 了 时， 学 校 需 要 向 班级 传达 一 下 精神 ， 就 需要 把 班长 都 召集 在 会 议 室 ， 
这 个 Rollback Segment Header 页 面 就 相当 于 是 一 个 会 议 室 。 

我 们 看 一 下 这 个 名 为 Rollback Segment Header 的 页 面 长 啥 样 〈 以 默认 的 16KB 为 例 )， 如 
图 20-35 所 示 。 





图 20-35 Rollback Segment Header 页 面 结构 示意 


设计 InnoDB 的 大 叔 规 定 ， 每 一 个 Rollback Segment Header 页 面 都 对 应 着 一 个 段 ， 这 个 段 
就 称 为 回 滚 段 (Rollback Segment)。 与 前 面 介 绍 的 各 种 段 不 同 的 是 ， 这 个 回 滚 段 中 其 实 只 有 一 
个 页 面 (这 可 能 是 设计 InnoDB 的 大 叔 的 一 种 洁癖 ， 他 们 可 能 党 得 为 了 某 个 目的 去 分 配 页 面 的 
话 ， 都 得 先 申请 一 个 段 ; 或 者 他 们 觉得 虽然 在 目前 版 本 的 MySQL [我 使 用 的 版 本 是 5.7.22] 中 ， 
回 滚 段 中 其 实 只 有 一 个 页 面 ， 但 之 后 的 版 本 没准 会 增加 页 面 )。 

了 解 了 回 滚 段 的 含义 之 后 ， 再 来 看 看 这 个 名 为 Rollback Segment Header 的 页 面 中 ， 各 个 部 
分 的 含义 都 是 啥 。 

e@ TRX RSEG MAX SIZE : 这 个 回 滚 段 中 管理 的 所 有 Undo 页 面 链表 中 的 Undo 页 面 数 

量 之 和 的 最 大 值 。 换 名 话说， 在 这 个 回 滚 段 中 ， 所 有 Undo 页 面 链表 中 的 Undo 页 面 数 
量 之 和 不 能 超过 TRX RSEG MAX SIZE 代表 的 值 。 该 属性 的 值 默认 为 无 限 大 ， 也 就 
是 想 创 建 多 少 个 Undo 页 面 都 可 以 。 


~ “无 限 大 ”其 实 也 只 是 个 压 张 的 说 法 ，4 字 节能 表示 的 最 大 数 也 就 是 0xXFFFFFFFF. 
9 但 是 后 面 会 看 到 ，0xFFFFFFFF 这 个 数 有 特殊 用 途 ， 所 以 实际 上 TRX RSEG MAX 
小 贴 士 “SIZE 的 默认 值 为 0xXFFFFFFFE. 


e TRX RSEG HISTORY SIZE : History 链表 占用 的 页 面 数量 。 
e TRX RSEG HISTORY : History 链表 的 基 节 点 。 


、 History 链表 会 在 下 一 章 讲 ， 少 安 毋 踩 . 
小 贴 十 ; 


e TRX RSEG FSEG HEADER: 这 个 回 滚 段 对 应 的 10 字 节 大 小 的 Segment Header 结构 ， 
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通过 它 可 以 找到 本 回 滚 段 对 应 的 INODE Entry 。 
® i : 各 个 Undo 页 面 链表 的 first undo page 的 页 号 集合 ， 也 就 
是 undo slot 集合 。 


一 个 页 号 占用 4 字 节 ， Wh i 16KB 的 页 面 来 说 ， 这 个 TRX RSEG UNDO SLOTS 
部 分 共存 储 了 1,024 个 undo slot， 所 以 共 需 1.024 x 4 = 4,096 字 节 。 


20.9.2 ”从 回 滚 段 中 申请 Undo 页 面 链表 


在 初始 情况 下 ， 由 于 未 向 任何 事务 分 配 任何 Undo 页 面 链表 ， 所 以 对 于 一 个 Rollback Segment 
Header 页 面 来 说 ， 它 的 各 个 undolslot 都 被 设置 为 一 个 特殊 的 值 : FIL NULL (对 应 的 十 六 进 制 
束 是 0xFFFFFFFF) ， 这 表示 该 undo slot 不 指向 任何 页 面 。 

随 着 时 间 的 流逝 ， 开 始 有 事务 需要 分 配 Undo 页 面 链 表 了 。 于 是 从 回 滚 段 的 第 一 个 undo 
slot 开始 ， 看 看 该 undo slot 的 值 是 否 为 FIL NULL。 

e 如 果 是 FIL_ NULL， 那 么 就 在 表 空 间 中 新 创建 一 个 段 (也 就 是 Undo Log Segment) ， 

然后 从 段 中 申请 一 个 页 面 作 为 Undo 页 面 链表 的 first undo page， 最 后 把 该 undo slot 
的 值 设置 为 刚刚 申请 的 这 个 页 面 的 地 址 。 这 也 就 意味 着 这 个 undo slot 被 分 配给 了 这 
个 事务 。 
e 如 果 不 是 FIL NULL， 说 明 该 undo slot 已 经 指向 了 一 个 undo 链表 。 也 就 是 说 这 个 
undo slot 己 经 被 别 的 事务 占用 了 ， 这 就 需要 跳 到 下 一 个 undo slot， 判断 该 undo slot 的 
值 是 否 为 FIL_NULL， 并 重复 上 面 的 步 又 。 
一 个 Rollback Segment Header 页 面 中 包含 1.024 个 undo slot。 如 果 这 1,024 个 undo slot 的 
值 都 不 为 FIL_NULL， 这 就 意味 着 这 1,024 个 undo slot 都 已 经 “名 花 有 主 ”( 被 分 配给 了 某 个 


事务 )。 此 时 ， 由 于 新 事务 无 法 再 获得 新 的 Undo 页 面 链表 ， 就 会 停止 执行 这 个 事务 并 且 向 用 
\ 户 报错 : 





Too many active concurrent transactions 


用 户 看 到 这 个 错误 ， 可 以 选择 重新 执行 这 个 事务 (可 能 重新 执行 时 有 别 的 事务 提交 了 ， 该 
事务 就 可 以 被 分 配 Undo 页 面 链表 了 )。 


当 一 个 事务 提交 时 ， 它 所 占用 的 undo slot 有 两 种 “命运 ”。 
e 如 有 果 该 undo slot 指向 的 Undo 页 面 链表 符合 被 重用 的 条 件 (就 是 Undo 页 面 链表 只 占 
用 一 个 页 面 ， 并 且 已 使 用 空间 小 于 整个 页 面 的 3/4)， 该 undo slot 就 处 于 被 缓存 的 状 
态 。 设 计 InnoDB 的 大 叔 规定 ， 该 Undo 页 面 链表 的 TRX_UNDO_STATE 属性 (该 属 
性 在 first undo page 的 Undo Log Segment Header 部 分 ) 此 时 会 被 设置 为 TRX_UNDO 
CACHED. 
全 缓存 的 undo slot 都 会 被 加 入 到 一 个 链表 中 。 不 同类 型 的 Undo 页 面 链表 对 应 的 undo slot 
会 被 加 入 到 不 同 的 链表 中 。 
qn 如 果 对 应 的 Undo 页 面 链表 是 insert undo 链表 ， 则 该 undo slot 会 被 加 入 insert undo 
cached 链表 中 。 


四 
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sm 如果 对 应 的 Undo 页 面 链表 是 update undo 链表 ， 则 该 undo slot 会 被 加 入 update undo 
cached 链表 中 。 

一 个 回 滚 段 对 应 着 上 述 两 个 cached 链表 。 如 果 有 新 事务 要 分 配 undo slot， 都 先 从 对 应 的 
cached 链表 中 找 。 如 果 没 有 被 缓存 的 undo slot， 才 会 到 回 滚 段 的 Rollback Segment Header 页 面 
中 寻找 。 

e 如 果 该 undo slot 指向 的 Undo 页 面 链表 不 符合 被 重用 的 条 件 ， 那 么 根据 该 undo slot 对 

应 的 Undo 页 面 链表 类 型 的 不 同 ， 也 会 有 不 同 的 处 理 。 

sm 如 果 对 应 的 Undo 页 面 链 表 是 insert undo 链表 ， 则 该 Undo 页 面 链表 的 TRX UNDO_ 
STATE 属性 会 被 设置 为 TRX UNDO TO _ FREE。 之 后 该 Undo 页 面 链表 对 应 的 段 会 
被 释放 掉 〈 也 就 意味 着 段 中 的 页 面 可 以 被 挪 作 他 用 )， 然 后 把 该 undo slot 的 值 设置 为 
FIL NULL。 

sm 如 果 对 应 的 Undo 页 面 链 表 是 update undo 链表 ， 则 该 Undo 页 面 链 表 的 TRX 
UNDO STATE 属性 会 被 设置 为 TRX UNDO TO PRUGE， 并 将 该 undo slot 的 值 设 
置 为 FIL NULL， 然 后 将 本 次 事务 写 入 的 一 组 undo 日 志 放 到 History 链表 中 (需要 
注意 的 是 ， 这 里 并 不 会 将 Undo 页 面 链表 对 应 的 段 给 释放 掉 ， 因 为 这 些 undo 日 志 
还 需要 留 着 为 MVCC 服务 呢 )。 


: 更 多 关于 History 链表 的 内 容 下 一 章 再 说 ， 少 安 毋 踩 。 
小 贴 士 


20.9.3 ”多 个 回 滚 段 


前 文 说 过 ， 一 个 事务 在 执行 过 程 中 最 多 分 配 4 个 Undo 页 面 链表 ， 而 一 个 回 滚 段 中 只 有 
1,024 个 undo slot， 很 显然 undo slot 的 数量 有 点 少 啊 。 即 使 假设 一 个 读 写 事务 在 执行 过 程 中 只 
分 配 1 个 Undo 页 面 链 表 ， 那 么 1,024 个 undo slot 也 只 能 支持 1,024 个 读 写 事务 同时 执行 ， 再 
多 就 崩溃 了 。 这 就 相当 于 会 议 室 只 能 容纳 1,024 个 班长 同时 开会 ， 如 果 有 几 千 人 同时 到 会 议 室 
开会 ， 那 后 来 的 人 就 没 地 方 坐 了 ， 只 能 等 待 前 面 的 人 开 完 会 后 再 进去 。 

话说 在 InnoDB 的 早期 发 展 阶段 ， 的 确 只 有 一 个 回 滚 段 。 但 是 设计 InnoDB 的 大 叔 后 
来 意识 到 了 这 个 问题 。 咋 解决 这 个 问题 呢 ? 会 议 室 不 够 ， 多 盖 几 间 会 议 室 不 就 得 了 。 所 以 
设计 InnoDB 的 大 叔 一 口气 定义 了 128 个 回 滚 段 ， 也 就 相当 于 有 了 128 x 1,024 = 131,072 个 
undo slot。 假 设 一 个 读 写 事务 在 执行 过 程 中 只 分 配 1 个 Undo 页 面 链表 ， 那 么 就 可 以 同时 支持 
131,072 个 读 写 事务 并 发 执行 《话说 这 么 多 事务 在 一 台 机 器 上 并 发 执行 ， 还 真 没 见 过 呢 )。 

每 个 回 滚 段 都 对 应 着 一 个 Rollback Segment Header 页 面 。 有 128 个 回 滚 段 ， 自 然 就 有 
128 个 Rollback Segment Header 页 面 。 这 些 页 面 的 地 址 总 得 找 个 地 方 存 一 下 吧 ! 于 是 设计 
InnoDB 的 大 叔 在 系统 表 空 间 第 $ 号 页 面 的 某 个 区 域 包 含 了 128 个 8 字 节 大 小 的 格子 ， 如 图 20-36 
所 示 。 

每 个 8 字 节 的 格子 的 构造 如 图 20-37 所 示 。 


有 


一 
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Transction System 





共 128 个 格子 ， 
每 个 格子 占用 8 字 节 
| 
图 20-36 系统 表 空 间 的 第 5 号 页 面 的 部 分 结构 20-37 每 个 8 字 节 的 格子 的 构造 


由 图 20-37 可 知 ， 每 个 8 字 节 的 格子 其 实 由 两 部 分 组 成 : 

@ 4 字 节 的 SpaceID， 人 代表 一 个 表 空 间 的 ID ; 

e@ 4 字 节 的 Page number， 代 表 一 个 页 号 。 

也 就 是 说 ， 每 个 8 字 节 大 小 的 格子 相当 于 一 个 指针 ， 指 疝 某 个 表 空 间 中 的 某 个 页 面 ， 这 个 
页 面 就 是 Rollback Segment Header 页 面 。 这 里 需要 注意 的 一 点 是 ， 要 定位 一 个 Rollback Segment 
Header 页 面 ， 还 需要 知道 对 应 的 表 空 间 ID， 这 也 就 意味 着 不 同 的 回 滚 段 可 能 分 布 在 不 同 的 表 空 
间 中 。 

所 以 通过 上 面 的 叙述 可 以 大 臻 清楚， 在 系统 表 空 间 的 第 5 号 页 面 中 存储 了 128 个 Rollback 
Segment Header 页 面 地 址 ， 每 个 Rollback Segment Header 就 相当 于 一 个 回 滚 段 。 在 Rollback 
Segment Header 页 面 中 ， 又 包含 1.024 个 undo slot， 每 个 undo slot 都 对 应 一 个 Undo 页 面 链 表 。 
用 图 来 表示 这 段 话 的 话 ， 就 是 图 20-38 这 样 。 


undo undo 
slot slot 


Undo Undo 
页 面 页 面 
链表 链表 二 1 pe S22 7 . 

图 20-38 ”系统 表 空间 第 5 号 页 面 、Rollback Segment Header 页 面 、undo slot 以 及 Undo 页 面 链表 的 关系 
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20.9.4” 回 滚 段 的 分 类 


我 们 给 这 128 个 回 滚 段 编 一 下 号 ， 最 开始 的 回 滚 段 称 为 第 0 号 回 滚 段 ， 之 后 依次 递增 ， 最 
后 一 个 回 滚 段 就 称 为 第 127 号 回 滚 段 。 这 128 个 回 滚 段 可 以 分 成 两 大 类 。 

e@e 第 0 号 、 第 33 一 127 号 回 滚 段 属于 一 类 。 其 中 第 0 号 回 滚 段 必须 在 系统 表 空 间 中 (就 

是 说 第 0 号 回 滚 段 对 应 的 Rollback Segment Header 页 面 必 须 在 系统 表 空 间 中 )。 第 
33 一 127 号 回 滚 段 既 可 以 在 系统 表 空 间 中 ， 也 可 以 在 自己 配置 的 undo 表 空 间 中 ( 具 
体 配 置 方式 稍 后 再 说 )。 

如 果 一 个 事务 在 执行 过 程 中 对 普通 表 的 记录 进行 了 改动 ， 需 要 分 配 Undo 页 面 链表 ， 就 必 
须 从 这 一 类 的 段 中 分 配 相 应 的 undo slot。 , 

e 第 1 一 32 号 回 滚 段 属于 一 类 。 这 些 回 滚 段 必须 在 临时 表 空 间 (对 应 着 数据 目录 中 的 

ibtmpl 文件 ) 中 。 

如 果 一 个 事务 在 执行 过 程 中 对 临时 表 的 记录 进行 了 改动 ， 需 要 分 配 Undo 页 面 链表 ， 就 必 
须 从 这 一 类 的 段 中 分 配 相应 的 undo slot。 

也 就 是 说 ， 如 果 一 个 事务 在 执行 过 程 中 既 对 普通 表 的 记录 进行 了 改动 ， 又 对 临时 表 的 记录 
进行 了 改动 ， 那 么 需要 为 这 个 记录 分 配 2 个 回 滚 段 ， 然 后 分 别 到 这 两 个 回 滚 段 中 分 配对 应 的 
undo slot。 

为 啥 要 针对 普通 表 和 临时 表 来 划分 不 同 种 类 的 回 滚 段 呢 ? 这 个 还 得 从 Undo 页 面 本 身 说 
起 。 我 们 说 过 ，Undo 页 面 其 实 是 类 型 为 FIL PAGE UNDO LOG 的 页 面 的 简称 ， 说 到 底 它 也 
是 一 个 普通 的 页 面 。 前 面 还 说 过 ， 在 修改 页 面 之 前 一 定 要 先 把 对 应 的 redo 日 志 写 上 ， 这 样 在 
系统 因 崩 省 而 重启 时 ， 才 能 恢复 到 裔 溃 前 的 状态 。 向 Undo 页 面 写 入 undo 日 志 本 身 也 是 一 个 
写 页 面 的 过 程 。 设 计 InnoDB 的 大 上 板 还 为 此 设计 了 许多 redo 日 志 的 类 型 ， 比 如 MLOG _UNDO 
HDR _CREATE、MLOG UNDO INSERT、MLOG UNDO INIT。 也 就 是 说 我 们 对 Undo 页 面 
做 的 任何 改动 都 会 记录 相应 类 型 的 redo 日 志 。 

但 是 对 于 临时 表 来 说 ， 因 为 修改 临时 表 而 产生 的 undo 日 志 只 需 在 系统 运行 过 程 中 有 效 。 
如 果 系 统 发 生 裔 溃 ， 那 么 在 重启 时 也 不 需要 恢复 这 些 undo 日 志 所 在 的 页 面 。 所 以 在 针对 临时 
表 写 Undo 页 面 时 ， 并 不 需要 记录 相应 的 redo 日 志 。 针 对 普通 表 和 临时 表 划 分 不 同 种 类 的 回 滚 
段 的 原因 可 以 总 结 为 : 在 修改 针对 普通 表 的 回 滚 段 中 的 Undo 页 面 时 ， 需 要 记录 对 应 的 redo 日 
志 ; 而 修改 针对 临时 表 的 回 滚 段 中 的 Undo 页 面 时 ， 不 需要 记录 对 应 的 redo 日 志 。 


实际 上 在 MySQL 5: 7.22 版 本 中 ， 如 果 仅仅 对 普通 表 的 记录 进行 了 改动 ;那么 只 会 

2 为 该 事务 分 配 针 对 普通 表 的 回 滚 段 ， 而 不 分 配 针对 临时 表 的 回 滚 段 : 但 是 如果 仅仅 对 

9: 临 时 表 的 5 了 录 关 4 行 了 改动 ， 那 么 既 会 为 该 事务 分 配 针对 普通 表 的 回 滚 段 ， 又 会 为 其 分 配 

小 贴 士 针对 临时 表 的 回 滚 自 《不 过 分 配 了 四 六 投放 入 可 undo Slot 和 
tndo 页 面 链表 时 才 会 分 配 回 浪 段 中 的 undo slot) 





20.9.5 ”roll_pointer 的 组 成 
前 文 说 到 ， 聚 艇 索引 记录 中 包含 一 个 名 为 roll pointer 的 隐藏 列 。 有 些 类 型 的 undo 日 志 包 
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全 一 个 名 为 oll_pointer 的 属性， 这 个 必 必 本 质 上 就 是 一 个 指针 ， 它 指向 一 条 ndo 日 志 的 地 直 
这 个 roll_pointer 由 7 字 节 组 成 ， 共 包含 4 个 属性 ， 如 图 20-39 所 示 。 


| 


开 
i 人 





er 结构 示 


其 中 各 个 属性 的 含义 如 下 。 | 

e is_insert: 表示 该 指针 指向 的 undo 日 志 是 否 是 TRX_UNDO _INSERT 大 类 的 undo 日 志 。 

e rseg id: 表示 该 指针 指向 的 undo 日 志 的 回 滚 段 编号 。 我 们 知道 ， 最 多 有 128 个 回 滚 段 ， 
它们 的 编号 范围 是 0 一 127， 所 以 用 7 比特 表示 就 足够 了 。 

e page number : 表示 该 指针 指向 的 undo 日 志 所 在 页 面 的 页 号 。 

@ offset : 表示 该 指针 指向 的 undo 日 志 在 页 面 中 的 偏 移 量 。 


正 因为 roll_pointer 由 这 几 个 部 分 组 成 ， 我 们 就 可 以 很 轻松 地 根据 它 定位 到 一 条 具体 的 
undo 日 志 。 


20.9.6 ”为 事务 分 配 Undo 页 面 链表 的 详细 过 程 


前 面 说 了 一 大 堆 的 概念 ， 大 家 应 该 有 点 晕 。 接 下 来 我 们 以 事务 对 普通 表 的 记录 进行 改动 为 
例 ， 来 梳理 一 下 事务 执行 过 程 中 分 配 Undo 页 面 链 表 时 的 完整 过 程 。 
1. 事务 在 执行 过 程 中 对 普通 表 的 记录 进行 首次 改动 之 前 ， 首 先 会 到 系统 表 空 间 的 第 5 号 
页 面 中 分 配 一 个 回 滚 段 (其实 就 是 获取 一 个 Rollback Segment Header 页 面 的 地 址 )。 一 
生 某 个 回 滚 段 被 分 配给 了 这 个 事务 ， 那 么 之 后 该 事务 再 对 普通 表 的 记录 进行 改动 时 ， 
就 不 会 重复 分 配 了 。 | 
使 用 传说 中 的 round-robin〔 循 环 使 用 ) 方式 来 分 配 回 滚 段 。 比 如 ， 当 前 事务 分 配 了 第 0 号 
回 滚 段 ， 那 么 下 一 个 事务 就 要 分 配 第 33 号 回 滚 段 ， 再 下 一 个 事务 就 要 分 配 第 34 号 回 滚 段 。 简 
单 来 说 就 是 这 些 回 滚 段 被 轮 着 分 配给 不 同 的 事务 〈 就 是 这 么 简单 粗暴 ， 没 啥 好 说 的 )。 
2. 在 分 配 到 回 滚 段 后 ， 首 先 看 一 下 这 个 回 滚 段 的 两 个 cached 链表 有 没有 已 经 缓存 的 undo 
slot。 如 果 事 务 执行 的 是 INSERT 操作 ， 就 去 回 滚 段 对 应 的 insert undo cached 链表 中 看 看 
有 没有 缓存 的 undo slot ; | 如果 事务 执行 的 是 DELETE 操作 ， 就 去 回 滚 段 对 应 的 update 
undo cached 链表 中 看 看 有 没有 缓存 的 undo slot。 如 果 有 缓存 的 undo slot， 就 把 这 个 缓存 
的 undo slot 分 配给 该 事 
3. 如 果 没 有 缓存 的 undo slot 可 供 分 配 ， 那 么 就 要 到 Rollback Segment Header 页 面 中 找 一 
个 可 用 的 undo slot 分 配给 当前 事务 。 
前 面 已 经 说 过 如 何 从 Rollback Segment Header 页 面 中 分 配 可 用 的 undo slot 了 。 就 是 从 第 0 个 
undo slot 开始 ， 如 果 该 undo slot 的 值 为 FIL_NULL， 意 味 着 这 个 undo slot 是 空闲 的 ， 就 把 这 个 
undo slot 分 配给 当前 事务 ;否则 查看 下 一 个 undo slot 是 否 满足 条 件 ; 依 此 类 推 ， 直 到 最 后 一 个 


| 


ee 
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undo slot。 如 果 这 1,024 个 undo slot 的 值 都 不 是 FIL _NULL， 就 直接 报错 (一 般 不 会 出 现 这 种 
情况 )。 
4. 找到 可 用 的 undo slot 后 ， 如 果 该 undo slot 是 从 cached 链表 中 获取 的 ， 那 么 它 对 应 的 
Undo Log Segment 就 已 经 分 配 了 ; 否则 需要 重新 分 配 一 个 Undo Log Segment， 然 后 从 
该 Undo Log Segment 中 申请 一 个 页 面 作 为 Undo 页 面 链 表 的 first undo page， 并 把 该 页 
的 页 号 填 入 获取 的 undo slot 中 。 
5. 然后 事务 就 可 以 把 undo 日 志 写 入 到 上 面 申 请 的 Undo 页 面 链 表 中 了 。 
对 临时 表 的 记录 进行 改动 时 ， 步 骤 与 上 面 一 样 ， 这 里 不 再 更 述 。 不 过 需要 再 强调 一 次 ， 如 
果 一 个 事务 在 执行 过 程 中 既 对 普通 表 的 记录 进行 了 改动 ， 又 对 临时 表 的 记录 进行 了 改动 ， 那 么 
需要 为 这 个 事务 分 配 2 个 回 滚 段 。 并 发 执行 的 不 同事 务 其实 也 可 以 被 分 配 相 同 的 回 滚 段 ， 只 要 
分 配 不 同 的 undo slot 就 可 以 了 。 


20.10 ” 回 滚 段 相关 配置 


20.10.1 配置 回 滚 段 数 量 


前 面 说 过 ， 系 统 中 一 共有 128 个 回 滚 段 。 其 实 这 只 是 默认 值 ， 我 们 可 以 通过 启动 选项 
innodb rollback_segments 来 配置 回 滚 段 的 数量 ， 可 配置 的 范围 是 1 一 128。 但 是 这 个 选项 并 不 
会 影响 针对 临时 表 的 回 滚 段 数量 。 针 对 临时 表 的 回 滚 段 数量 一 直 是 32， 也 就 是 说 : 
e 如 果 把 innodb rollback _ segments 的 值 设 置 为 1， 那么 只 会 有 1 个 针对 普通 表 的 可 用 回 
滚 段 ， 但 是 仍然 有 32 个 针对 临时 表 的 可 用 回 滚 段 ; 

e 如 果 把 innodb rollback segments 的 值 设 置 为 2 一 33 之 间 的 数 ， 效 果 与 将 其 设置 为 1 
是 一 样 的 ; 

e@e 如 果 把 innodb rollback segments 设置 为 大 于 33 的 数 ， 那 么 针对 普通 表 的 可 用 回 滚 段 
数量 就 是 该 数 减 去 32。 


20.10.2 配置 undo 表 空 间 


默认 情况 下 ， 针 对 普通 表 设 立 的 回 滚 段 〈 第 0 号 以 及 第 33 一 127 号 回 滚 段 ) 都 是 被 分 配 
到 系统 表 空 间 中 的 。 其 中 第 0 号 回 滚 段 一 直 在 系统 表 空 间 ， 但 是 第 33 ~ 127 号 回 滚 段 可 以 通 
过 配置 放 到 目 定 义 的 undo 表 空 间 中 。 但 是 这 种 配置 只 能 在 系统 初始 化 〈 创 建 数据 目录 时 ) 时 
使 用 ， 一旦 初始 化 完成 ， 就 不 能 再 次 更 改 了 。 我 们 看 一 下 相关 的 启动 选项 。 
e 通过 innodb_undo_directory 指定 undo 表 空间 所 在 的 目录 。 如 果 没 有 指定 该 参数 ， 则 上 默 
认 undo 表 空 间 所 在 的 目录 就 是 数据 目录 。 
e 通过 innodb_ undo tablespaces 定义 undo 表 空 间 的 数量 。 该 参数 的 默认 值 为 0， 表明 不 
创建 任何 undo 表 空 间 。 
第 33 一 127 号 回 滚 段 可 以 平均 分 布 到 不 同 的 undo 表 空 间 中 。 
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2: 如 果 在 系 时 了 创建 undo 表 空 间 ， 那 么 系统 表 空间 中 的 第 0 号 回 滚 段 


比如 在 系统 初始 化 时 指定 fnnodb. yollbeck sop 为 35，innodb_undo tablespaces 为 2， 
这 样 就 会 将 第 33、34 号 回 滚 段 分 别 分 布 到 一 个 undo 表 空间 中 、。 

设立 undo 表 空间 的 一 个 好 处 就 是 在 undo 表 空间 中 的 文件 大 到 一 定 程度 时 ， 可 以 自动 将 该 
undo 表 空 间 截断 (truncate) 成 上 个 小 文件 。 而 系统 表 空间 的 大 小 只 能 不 断 增 大 ， 不 能 截断 。 


20.11 undo 日 PO 

上 一 章 讲 到 ， Ps 首先 需要 按照 redo 日 志 将 各 个 页 面 的 
数据 恢复 到 崩溃 之 前 的 状态 ， 这 样 可 以 保证 已 经 提交 的 事务 的 持久 性 。 但 是 这 里 仍然 存在 一 个 
问题 ， 就 是 那些 没有 提交 的 事务 写 的 redo 日 志 可 能 也 已 经 刷 盘 ， 那 么 这 些 未 提交 的 事务 修改 
过 的 页 面 在 MySQL 服务 器 重启 时 可 能 也 被 恢复 了 。 

为 了 保证 事务 的 原子 性 ， 有 必要 在 服务 器 重启 时 将 这 些 未 提交 的 事务 回 滚 掉 。 那 么 ， 怎 么 
找到 这 些 未 提交 的 事务 呢 ? ts undo 日 志 头 上 。 

我 们 可 以 通过 系统 表 空间 的 第 5 号 页 面 定位 到 128 个 回 滚 段 的 位 置 ， 在 每 一 个 回 滚 自 
的 1,024 个 undo slot 中 找到 那些 值 不 为 FIL_NULL 的 undo slot， 每 一 个 undo slot 对 应 着 一 
个 Undo 页 面 链表 。 然 后 从 Undp 页 面 链表 第 一 个 页 面 的 Undo Segment Header 中 找到 TRX 
UNDO_STATE 属性 ， 该 属性 标识 当前 Undo 页 面 链表 所 处 的 状态 。 如 果 该 属性 的 值 为 TRX 
UNDO_ACTIVE， 则 意味 着 有 一 个 活跃 的 事务 正在 向 这 个 Undo 页 面 链 表 中 写 入 undo 日志。 
然后 再 在 Undo Segment Header 中 找到 TRX_UNDO_LAST_LOG 属性 ， 通 过 该 属性 可 以 找到 本 
Undo 页 面 链 表 最 后 一 个 Undo Log Header 的 位 置 。 从 该 Undo Log Header 中 可 以 找到 对 应 事务 
的 事务 过 以 及 一 些 其 他 信息 ， 则 该 事务 过 对 应 的 事务 就 是 未 提交 的 事务 。 通 过 und 日 志 中 记 
录 的 信息 将 该 事务 对 页 面 所 做 的 更 改 全 部 回 滚 掉 ， 这 样 就 保证 了 事务 的 原子 性 。 


20.12 总结 


为 了 保证 事务 的 原子 性 ， 上 InnoDB 的 大 叔 引 入 了 undo 日 志 。undo 日 志 记 载 了 回 滚 一 
个 操作 所 需 的 必要 内 容 。 

在 事务 对 表 中 的 记录 进行 改动 时 ， 才 会 为 这 个 事务 分 配 一 个 唯一 的 事务 id。 事务 id 值 是 
一 个 递增 的 数字 。 先 被 分 配 id 的 事务 得 到 的 是 较 小 的 事务 id， 后 被 分 配 jd 的 事务 得 到 的 是 较 
大 的 事务 id。 未 被 分 配 事务 id 的 事务 的 事务 这 默认 是 0。 聚 簇 索 引 记录 中 有 一 个 trx_ id 隐藏 列 ， 
它 代 表 对 这 个 聚 簇 索引 记录 进行 改动 的 语句 所 在 的 事务 对 应 的 事务 id。 

设计 InnoDB 的 大 叔 针 对 不 同 的 场景 设计 了 不 同类 型 的 undo 日 志 ， 比 如 TRX UNDO 
INSERT REC、TRX_UNDO_DEL MARK REC、 TRX_UNDO_UPD_ EXIST REC 等 。 
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类 型 为 FIL PAGE UNDO LOG 的 页 面 是 专门 用 来 存储 undo 日 志 的 ， 我 们 简称 为 Undo 
页 面 。 

在 一 个 事务 执行 过 程 中 ， 最 多 分 配 4 个 Undo 页 面 链表 ， 分 别 是 : 

e 针对 普通 表 的 insert undo 链表 ; 

e 针对 普通 表 的 update undo 链表 ; 

e 针对 临时 表 的 insert undo 链表 ; 

e@e 针对 临时 表 的 update undo 链表 。 

只 有 在 真正 用 到 这 些 链表 的 时 候 才 去 创建 它们 。 

每 个 Undo 页 面 链 表 都 对 应 一 个 Undo Log Segment。Undo 页 面 链表 的 第 一 个 页 面 中 有 一 
个 名 为 Undo Log Segment Header 的 部 分 ， 专 门 用 来 存储 关于 这 个 段 的 一 些 信息 。 

同一 个 事务 向 一 个 Undo 页 面 链 表 中 写 入 的 undo 日 志 算是 一 个 组 ， 每 个 组 都 以 一 个 Undo 
Log Header 部 分 开头 。 

一 个 Undo 页 面 链表 如 果 可 以 被 重用 ， 需 要 符合 下 面 的 条 件 : 

e@e 该 链表 中 只 包含 一 个 Undo 页 面 ; 

@ 该 Undo 页 面 已 经 使 用 的 空间 小 于 整个 页 面 空间 的 3/4。 

每 一 个 Rollback Segment Header 页 面 都 对 应 着 一 个 回 滚 段 ， 每 个 回 滚 段 包含 1,024 个 undo 
slot， 一 个 undo slot 代表 一 个 Undo 页 面 链表 的 第 一 个 页 面 的 页 号 。 目 前 ，InnoDB 最 多 支持 
128 个 回 滚 段 ， 其 中 第 0 号 、 第 33 ~ 127 号 回 滚 段 是 针对 普通 表 设 计 的 ， 第 1 ~ 32 号 回 滚 段 。 “ 
是 针对 临时 表 设 计 的 。 

我 们 可 以 选择 将 undo 日 志 记 录 到 专门 的 undo 表 空间 中 ， 在 undo 表 空 间 中 的 文件 大 到 一 
定 程度 时 ， 可 以 自动 将 该 undo 表 空 间 截断 为 小 文件 。 


a 





一 条 记录 的 和 多 副 面 孔 一 一 


唱 离 级 别 和 MVCC 





21.1 事前 准备 


为 了 故事 的 顺利 发 展 ， 我 们 需要 创建 一 个 表 : 


CREATE TABLE her 
number INT, 
name VARCHAR (100) ， 
country VRARCHAR (1I00) ， 


mw - ok ue" 9 
PRIMARY KEY (number) 
性 aa 
) Engine=InnoDB CHRRSET=utE8， 


2: 注意 ， 这 里 把 hero 表 的 主键 命名 为 number， 而 不 是 jd， 主要 是 想 与 后 面 要 用 到 的 
小 由 十 ”事务 过 进行 区 别 。 大 家 不 用 大 惊 小 怪 . 

然后 同 这 个 表 插 入 一 条 记录 : 

INSERT INTO hero VALUES (1， “刘备 5“，' 蜀 +) ; 

现在 表 中 的 数据 就 是 下 面 这 样 : 


ITYSGJL> SELECT * FROM hero; 


-~ 一 一 一 十 一 一 一 一 一 一 一 一 一 十 
| number | I untry | 
| =- 
| 1 | 刘备 说 | 
+ 人 es D0 me ee 
| row in set I c) 


21.2 事务 隔离 级 别 


我 们 知道 ，MySQL 是 一 个 客户 端 /服务 器 架构 的 软件 。 对 于 同一 个 服务 器 来 说 ， 可 以 有 
多 个 客户 端 与 之 连接 。 每 个 客户 端 与 服务 器 建立 连接 后 ， 就 形成 了 一 个 会 话 。 每 个 客户 端 都 可 
以 在 目 己 的 会 话 中 向 服务 器 发 出 请 求 语句 ， 一 个 请 求 语句 可 能 是 某 个 事务 的 一 部 分 。 服 务 器 可 
以 同时 处 理 来 目 多 个 客户 端的 多 个 事务 。 
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我 们 在 第 18 章 中 提 到 ， 一 个 事务 就 对 应 着 现实 世界 的 一 次 状态 转换 。 事 务 执行 之 后 必须 
保证 数据 符合 现实 世界 的 所 有 规则 ， 这 就 是 我 们 强调 的 一 臻 性。 数据库 管理 系统 提供 的 一 系列 
约束 ， 比 方 说 主键 、 唯 一 索引 、 外 键 、 声 明 某 个 列 不 允许 插入 NULL 值 等 可 以 帮助 我 们 解决 一 
部 分 一 致 性 需求 。 但 是 这 对 于 “现实 世界 的 所 有 规则 ”来 说 ， 无 异 于 杯水车薪 ， 更 多 的 一 致 性 
需求 需要 我 们 程序 员 人 为 地 保证 。 数 据 库 管 理 系统 通过 redo 日 志 、undo 日 志 这 些 手 段 来 保证 事 
务 的 原子 性 。 程 序 员 只 要 将 现实 世界 的 状态 转换 所 对 应 的 数据 库 操作 都 写 到 一 个 事务 中 ， 那 么 
该 事务 执行 完成 后 ， 必 然 从 一 个 一 致 性 状态 转移 到 下 一 个 一 致 性 状态 (原子 性 保证 即使 事务 执行 
失败 ， 也 只 会 返回 到 最 初 的 一 致 性 状态 )。 我 们 在 18 章 中 举 了 一 个 转账 的 例子 。 狗 哥 向 猫 爷 转账 5 
元 钱 就 是 现实 世界 的 一 次 状态 转换 ， 当 时 我 们 粗略 地 将 这 次 状态 转换 对 应 到 下 面 这 几 个 操作 。 

1. 读 取 狗 哥 账户 的 余额 到 变量 A 中 ; 简写 为 read(A)。 大 家 可 以 把 这 个 过 程 对 应 到 一 条 

SELECT 语句 ， 将 读 取 到 的 结果 存储 到 变量 A。 
2. 将 狗 哥 账户 的 余额 减 去 转账 金额 ， 简写 为 A = A 一 S。 大 家 可 以 把 这 个 过 程 理解 为 在 
我 们 的 用 户 程序 中 将 变量 A 的 值 减 5。 
3. 将 狗 哥 账户 修改 过 的 余额 写 到 磁盘 中 ; 简写 为 write(A)。 大 家 可 以 把 这 个 过 程 对 应 到 
一 条 UPDATE 语句 。 
4. 读 取 猫 爷 账户 的 余额 到 变量 B ;简写 为 read(B)。 大 家 可 以 把 这 个 过 程 对 应 到 一 条 
SELECT 语句 ， 将 读 取 到 的 结果 存储 到 变量 B。 
5. 将 猫 和 区 账户 的 余额 加 上 转账 金额 ， 简 写 为 B = B 十 5。 大 家 可 以 把 这 个 过 程 理 解 为 在 
我 们 的 用 户 程 序 中 将 变量 B 的 值 加 5。 
6. 将 猫 芝 账户 修改 过 的 余额 写 到 磁盘 中 ; 简写 为 write(B)。 大 家 可 以 把 这 个 过 程 对 应 到 
一 条 UPDATE 语句 。 
人: 由 于 我 们 已 经 介绍 过 Tedo 日 志 了 ， 所 以 其 实 writelA)、write(B) 操作 没 必要 一 定 要 
小 贴 十 “将 修改 过 的 余额 写 到 磁盘 中 。 写 到 内 存 中 的 页 面 中 就 可 以 了 - 


在 这 个 转账 事务 中 ， 我 们 必须 保证 参与 转账 的 账户 的 总 余额 保持 不 变 ， 这 也 就 是 这 个 转账 
事务 的 一 致 性 需求 。 程 序 员 只 要 把 上 述 步骤 都 放 在 一 个 事务 中 执行 ， 在 事务 的 原子 性 的 保护 
下 ， 这 些 操作 执行 完 肯 定 是 能 满足 一 致 性 需求 。 

opt ee ge lahore ia titi 面 对 的 就 是 上 一 个 
事务 执行 结束 后 留 下 的 一 致 性 状态 ， 它 执行 之 后 又 会 产生 下 一 个 一 致 性 状态 。 在 多 个 事务 并 
发 执行 时 ， 情 况 就 变 得 比较 复杂 了 。 和 访问 相同 的 数据 ， 比 方 说 在 
“ 狗 哥 给 猫 区 转账 ”的 事务 和 “ 张 三 给 李 四 转 账 ” 的 事务 并 发 执行 时 ， 由 于 这 两 个 事务 并 不 会 
访问 相同 的 账户 ， 所 以 它们 并 发 执行 并 不 会 带 来 什么 一 致 性 问题 。 也 就 是 说 最 终 的 “参与 转账 
的 账户 的 总 余额 保持 不 变 ”这 个 一 致 性 需求 是 可 以 保证 的 ， 但 是 ， 如 果 并 发 执行 的 事务 会 访问 
相同 的 数据 ， 就 可 能 导致 不 能 满足 “参与 转账 的 账户 的 总 余额 保持 不 变 ” 这 个 一 致 性 需求 。 我 
们 在 18 章 中 也 举 了 一 个 例子 。 狗 哥 一 开始 有 11 元 ， 猫 苍 有 2 元 ， 他 们 的 账户 总 余额 为 13 元 。 
狗 哥 向 猫 爷 同时 进行 两 次 转账 ， 这 两 次 转账 对 应 的 事务 分 别 命名 为 TI 和 T2。 如 果 TL 和 T2 
中 的 各 个 步骤 的 执行 顺序 如 图 21-1 所 示 ， 那 么 就 会 引发 一 致 性 问题 。 
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T1 和 T2 交 赫 执 行 的 情况 : 


此 时 A 的 值 为 11 
此 时 A 的 值 为 11 


此 时 A 的 值 为 6 
此 时 B 的 值 为 2 


此 时 B 的 值 为 7 





此 时 A 的 值 为 6 
此 时 B 的 值 为 7 


此 时 B 的 值 为 12 





| 图 21-1 TIl 和 T2 的 执行 顺序 


如 果 按照 图 21-1 中 的 执行 顺序 来 进行 两 次 转账 ， 最 终 狗 哥 的 账户 里 还 剩 6 元 钱 ， 相 当 于 
只 扣 了 5 元 钱 ， 但 是 猫 爷 的 账户 里 却 成 了 12 元 钱 ， 相 当 于 多 了 10 元 钱 。 他 们 的 账户 总 余额 变 
为 了 18 元 。 这 显然 违背 了 “参与 转账 的 账户 的 总 余额 保持 不 变 ” 的 一 致 性 需求 。 

这 要 求 我 们 使 用 基 御 手段 闪 强制 让 这 些 事务 按 归 大 序 一 个 一 个 痢 地 执行 ， 丽 者 最 线 扩 
行 的 效果 和 单独 执行 一 样 。 也 就 是 说 我 们 希望 让 这 些 事务 “隔离 ”地 执行 ， 互 不 干涉 。 这 也 就 
是 事务 的 隔离 性 。 

实现 这 个 隔离 性 的 最 粗暴 方式 就 是 在 系统 中 的 同一 时 刻 最 多 只 允许 一 个 事务 运行 《比方 说 
强制 让 所 有 事务 在 一 个 线程 中 执行 )。 其 他 事务 只 有 在 该 事务 执行 完 之 后 ， 才 可 以 开始 运行 
我 们 也 把 这 种 多 个 事务 的 执行 方式 称 为 串 行 执行 。 但 是 串 行 执行 太 严格 了 ， 会 严重 降低 系统 天 
吐 量 和 资源 利用 率 ， 会 增加 事务 的 等 待 时 间 。 这 样 不 太 好 ， 我 们 需要 改进 。 并 发 事务 之 所 以 可 
能 影响 一 致 性 ， 是 因为 它们 在 执行 过 程 中 可 能 访问 相同 的 数据 。 我 们 可 以 更 人 性 化 一 点 ， 比 广 
说 在 某 个 事务 访问 某 个 数据 时 ， 对 要 求 其 他 试图 访问 相同 数据 的 事务 进行 限制 ， 让 它们 进行 排 
队 。 当 该 事务 提交 之 后 ， 其 他 事务 才能 继续 访问 这 个 数据 。 这 样 可 以 让 并 发 执行 的 事务 的 执行 
结果 与 串 行 执行 的 结果 一 样 ， 我 们 把 这 种 多 个 事务 的 执行 方式 称 为 可 串 行 化 执行 。 


两 个 并 发 的 事务 在 执行 过 程 中 访问 相同 数据 的 情况 有 读 一 读 情况 (所 就 是 两 不 事务 
对 该 数据 都 进行 读 操作 )、 读 - 写 情况 (也 就 是 一 个 事务 对 该 数据 进行 读 操作 ， 另 一 个 
事务 对 该 数据 进行 写 操作 )、 写 - 读 情况 (也 就 是 一 个 事务 对 该 数据 进行 写 操作 ， 另 一 
、, ， 个 事务 对 该 数据 进行 读 
的: 如果 是 读 - 读 操作 的 话 ， 的 读 操 
小 贴 士 ”不 会 带 来 一 致 性 问题 只 有 在 至 少 一 外事 
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不 过 即使 是 可 串 行 化 执行 ， 性 能 上 也 会 有 一 定 的 损失 。 俗 话说 :“ 鱼 ， 我 所 欲 也 ; 人 熊 掌 ， 
亦 我 所 欲 也 。 二 者 不 可 得 兼 ， 售 鱼 而 取 熊 掌 者 也 。.” 我 们 是 否 可 以 牺牲 一 部 分 隔离 性 来 换取 性 
能 上 的 提升 呢 〈 即 使 这 样 可 能 会 出 现 一 些 一 致 性 问题 )? 是 的 ， 当 然 可 以 。 不 过 我 们 首先 需要 
搞 明 白 多 个 事务 在 不 进行 可 串 行 化 执行 的 情况 下 ， 到 底 会 出 现 哪 些 一致 性 问题 ? 


21.2.1 事务 并 发 执行 时 遇 到 的 一 致 性 问题 


e 脏 写 (Dirty Write) 

如 果 一 个 事务 修改 了 另 一 个 未 提交 事务 修改 过 的 数据 ， 就 意味 着 发 生 了 脏 写 现象 。 我 们 可 
以 把 脏 写 现象 简称 为 P0。 假 设 现在 事务 T1 和 T2 并 发 执行 ， 它 们 都 要 访问 数据 项 x (这 里 可 
以 将 数据 项 x 当 作 一 条 记录 的 某 个 字段 )。 那 么 P0 对 应 的 操作 执行 序列 如 下 所 示 : 


PO: wl[x]...w2[x]...((cl or al) and (c2 or a2) in any order) 


其 中 wl[x] 表示 事务 T1 修改 了 数据 项 x 的 值 ，w2[x] 表示 事务 T2 修改 了 数据 项 x 的 值 ， 
cl 表示 事务 T1 的 提交 (Commit) ，al 表示 事务 Tl 的 中 止 (Abort) ，c2 表示 事务 T2 的 提交 ， 
a2 表示 事务 T2 的 中 止 ，... 表示 其 他 的 一 些 操作 。 从 P0 的 操作 执行 序列 中 可 以 看 出 ， 事 务 T2 
修改 了 未 提交 事务 T1 修改 过 的 数据 ， 所 以 发 生 了 脏 写 现象 。 

脏 写 现象 可 能 引发 一 致 性 问题 。 比 方 说 事务 TI 和 T2 要 修改 x 和 Yy 这 两 个 数据 项 〈 修 改 
不 同 的 数据 项 就 相当 于 修改 不 同 记录 的 字段 )， 我 们 的 一 致 性 需求 就 是 让 x 的 值 和 y 的 值 始 终 
相同 。 现 在 并 发 执行 事务 TI1 和 T2， 它 们 的 操作 执行 序列 如 下 所 示 : 


wl [x=1 ]w2 {x=2]w2[y=2]c2wl [y=1]cl 


很 显然 事务 T2 修改 了 尚未 提交 的 事务 T1 的 数据 项 x， 此 时 发 生 了 脏 写 现象 。 如 果 我 们 允 
许 脏 写 现象 的 发 生 ， 那 么 在 TI 和 T2 全 部 提交 之 后 ，x 的 值 是 2， 而 y 的 值 却 是 1， 不 符合 “x 
的 值 和 y 的 值 始终 相同 ”的 一 致 性 需求 。 

男 外 ， 脏 写 现象 也 可 能 破坏 原子 性 和 持久 性 。 比 方 说 有 x 和 y 这 两 个 数据 项 ， 它 们 初始 的 
值 都 是 0， 两 个 并 发 执行 的 事务 TI 和 T2 有 下 面 的 操作 执行 序列 : 


wl [x=2]w2[x=3]w2 [y=3]c2al 


也 就 是 Tl 先 修 改 了 数据 项 x， 然 后 T2 修改 了 数据 项 x 和 数据 项 y， 然 后 T2 提交 ， 最 后 
Tl 中止 。 现 在 的 问题 是 Tl 中 止 时 ， 需 要 将 它 对 数据 库 所 做 的 修改 回 滚 到 该 事务 开启 时 的 样 
子 ， 也 就 是 将 数据 项 x 的 值 修改 为 0。 但 是 此 时 T2 已 经 修改 过 数据 项 x 并 且 提 交 了 ， 如 果 要 
将 Tl 回 滚 的话 ， 相 当 于 要 对 T2 对 数据 库 所 做 的 修改 进行 部 分 回 滚 〈 部 分 回 滚 是 指 T2 只 回 滚 
对 x 做 的 修改 ， 而 不 回 滚 对 y 做 的 修改 )， 这 就 影响 到 了 事务 的 原子 性 。 如 果 要 将 T2 对 数据 
库 所 做 的 修改 全 部 回 滚 的 话 ， 那 么 明明 T2 己 经 提交 了 ， 它 对 数据 库 所 做 的 修改 应 该 具有 持久 
性 ， 怎 么 能 让 一 个 未 提交 的 事务 将 T2 的 持久 性 破坏 掉 呢 ? 所 以 这 时 候 就 会 很 尴 众 。 

e@e 脏 读 (Dirty Read) 

如 果 一 个 事务 读 到 了 另 一 个 未 提交 事务 修改 过 的 数据 ， 就 意味 着 发 生 了 脏 读 现象 ， 我 们 可 
以 把 脏 读 现象 简称 为 P1。 假 设 现在 事务 TI 和 T2 并 发 执行 ， 它 们 都 要 访问 数据 项 x。 那 么 Pl 
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对 应 的 操作 执行 序列 如 下 所 示 : 


pl: wl[x]...r2{x]...((cl or a ) and (c2 or a2) in any order) 


脏 读 现象 也 可 能 引发 一 致 性 问题 。 比 方 说 事务 TI 和 T2 中 要 访问 x 和 y 这 两 个 数据 项 ， 
我 们 的 一 致 性 需求 就 是 让 x 的 值 和 y 的 值 始终 相同 ，x 和 y 的 初始 值 都 是 0。 现 在 并 发 执行 事 
务 Tl 和 T2， 它 们 的 操作 执行 序列 如 下 所 示 ; 


wl [x=1]r2[x=1]jr2[y=0]c2wl[y=1ljcl 


侵 显 然 T2 是 一 个 只 读 事务 ,依次 读 取 x 和 y 的 值 。 可 是 由 于 T2 读 取 的 数据 项 x 是 未 提 
区 事务 T1 修改 过 的 值 ， 所 以 导致 最 后 读 取 x 的 值 为 1，y 的 值 为 0。 虽然 最 终 数据 库 状 态 还 是 
一 致 的 (最 终 变 为 了 x=1, y=1)， 但 是 T2 却 得 到 了 一 个 不 一 致 的 状态 。 数据 库 的 不 一 致 状态 
征 不 应 该 暴露 给 用 户 的 。 

P1 代表 的 事务 的 操作 执行 序列 其 实 是 一 种 脏 读 的 广义 解释 ， 针对 脏 读 还 有 一 种 严格 解释 。 
为 了 与 三 义 解释 进行 区 分 ， 我 们 把 脏 读 的 严格 解释 称 为 Al1，Al 对 应 的 操作 执行 序列 如 下 所 示 : 


Al: wl[x]...r2[x]... (al and c2 in any order) 


也 就 是 Tl 先 修改 了 数据 项 x 的 值 ， 然 后 T2 又 读 取 了 未 提交 事务 T1 针对 数据 项 x 修改 后 
的 值 ， 之 后 Tl 中 止 而 T2 提交 。 这 就 意味 着 T2 读 到 了 一 个 根本 不 存在 的 值 ， 这 也 是 脏 读 的 严 
格 解释 。 很 显然 脏 读 的 广义 解释 是 覆盖 严格 解释 包含 的 范围 的 。 

9 不 可 重复 读 (Non-Repeatable Read) 

如 果 一 个 事务 修改 了 另 一 个 未 提交 事务 读 取 的 数据 ， 就 意味 着 发 生 了 不 可 重复 读 现象 ， 或 
看 叫 模 糊 读 (Fuzzy Read) 现象 。 我 们 可 以 把 不 可 重复 读 现象 简称 为 P2。 假 设 现在 事务 T1 和 
T2 并 发 执行 ， 它 们 都 要 访问 数据 项 x。 那 么 P2 对 应 的 操作 执行 序列 如 下 所 示 ， 


P2: rl[x]...w2[x]...((cl or a ) and (c2 or a2) in any order) 


个 可 重复 读 现 象 也 可 能 引发 熏 致 性 问题 。 比 方 说 事务 TI 和 T2 中 要 访问 x 和 y 这 两 个 数 
据 项 ， 我 们 的 一 致 性 需求 就 是 让 x 的 值 和 y 的 值 始终 相同 ，x 和 y 的 初始 值 都 是 0。 现在 并 发 
执行 事务 TI 和 T2， i 


rl [x=0]jw2 [x=1]w2[y=1]c2rl[y=ljicl 


很 显然 Tl 是 一 个 只 读 事务 , | 依次 读 取 x 和 y 的 值 。 可 是 由 于 TIl 在 读 取 数据 项 x 后 ，T2 
接着 修改 了 数据 项 x 和 y 的 值 ， 并 且 提交 ， 之 后 T1 再 读 取 数据 项 y。 这 个 过 程 中 虽 未 发 生 脏 
与 和 脏 读 〈 因 为 Tl 读 取 y 的 值 时 ，T2 已 经 提交 )， 但 最 终 T1 得 到 的 x 的 值 为 0， y 的 值 为 1。 
很 显然 这 是 一 个 不 一 致 的 状态 ， 这 种 不 一 致 的 状态 是 不 应 该 暴露 给 用 户 的 。 

P2 代表 的 事务 的 操作 执行 序列 其 实 是 一 种 不 可 重复 读 的 广义 解释 ， 针对 不 可 重复 读 还 有 
一 种 严格 解释 。 为 了 与 广义 解释 进行 区 分 ， 我 们 把 不 可 重复 读 的 严格 解释 称 为 A2，A2 对 应 的 
操作 执行 序列 如 下 所 示 : 





A2: 1 
也 就 是 Tl 先 读 取 了 数据 项 x 的 值 ， 然 后 T2 又 修改 了 未 提交 事务 T1 读 取 的 数据 项 x 的 值 ， 
| | esN 
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之 后 T2 提交 ， 然 后 Tl 再 次 读 取 数据 项 x 的 值 时 会 得 到 与 第 一 次 读 取 时 不 同 的 值 。 这 也 是 不 
可 重复 读 的 严格 解释 。 很 显然 不 可 重复 读 的 广义 解释 是 覆盖 严格 解释 包含 的 范围 的 。 

@ 幻 读 (Phantom ) 

如 果 一 个 事务 先 根据 某 些 搜 索 条 件 查 询 出 一 些 记录 ， 在 该 事务 未 提交 时 ， 另 一 个 事务 写 
入 一 些 了 符合 那些 搜索 条 件 的 记录 (这 里 的 写 入 可 以 指 INSERT、DELETE、UPDATE 操作 )， 
就 意味 着 发 生 了 幻 读 现象 。 我 们 可 以 把 幻 读 现象 简称 为 P3。 假 设 现在 事务 Tl 和 T2 并 发 执行 ， 
那么 P3 对 应 的 操作 执行 序列 如 下 所 示 : 


P3: rl[P]...w2[y in Pl]...((cl or al) and (c2 or a2) any order) 


其 中 rl[P] 表示 Tl 读 取 一 些 符合 搜索 条 件 P 的 记录 ，w2[y in P] 表示 T2 写 入 一 些 符 合 搜 
索 条 件 了 的 记录 。 

幻 读 现象 也 可 能 引发 一 致 性 问题 。 比 方 说 现在 符合 搜索 条 件 P 的 记录 条 数 有 3 条 。 我 们 有 一 
个 数据 项 z 专 门 表 示 符 合 搜索 条 件 P 的 记录 条 数 ， 它 的 初始 值 当 然 也 是 3。 我 们 的 一 致 性 需求 就 是 
让 z 表 示 符 合 搜索 条 件 P 的 记录 数 。 现 在 并 发 执行 事务 TI 和 T2， 它 们 的 操作 执行 序列 如 下 所 示 : 


rl[Pjw2[insert y to P]r2[z=3]w2[z=4]c2rl[z=4]jcl 


Tl 先 读 取 符合 搜索 条 件 P 的 记录 ， 然 后 T2 插入 了 一 条 符合 搜索 条 件 P 的 记录 ， 并 且 更 
新 数据 项 z 的 值 为 4。 然 后 T2 提交 ， 之 后 T1 再 读 取 数据 项 z。z 的 值 变 为 了 4， 这 与 Tl 之 前 
实际 读 取出 的 符合 搜索 条 件 了 的 记录 条 数 不 合 ， 不 符合 一 致 性 需求 。 

P3 代表 的 事务 的 操作 执行 序列 其 实 是 一 种 幻 读 的 广义 解释 ， 针 对 幻 读 还 有 一 种 严格 解释 。 
为 了 与 广义 解释 进行 区 分 ， 我 们 把 幻 读 的 严格 解释 称 为 A3，A3 对 应 的 操作 执行 序列 如 下 所 示 : 


3s TLEP}. .ewely SR 了 


也 就 是 Tl 先 读 取 符合 搜索 条 件 P 的 记录 ， 然 后 T2 写 入 了 符合 搜索 条 件 P 的 记录 。 之 后 
T1 再 读 取 符 合 搜索 条 件 P 的 记录 时 ， 会 发 现 两 次 读 取 的 记录 是 不 一 样 的 。 


由 于 SQL 标准 中 对 并 发 事务 执行 过 程 中 可 能 产生 一 致 性 问题 的 各 种 现象 描述 不 清 
上 晰 ， 所 以 我 们 这 里 采用 了 论文 4 Critigue of ANSIT SOL Isolation Levels 中 关于 脏 写 。 脏 读 、 
不 可 重复 读 、 幻 读 的 定义 。 另 外 ，SQL 标准 中 针对 幻 读 的 描述 ， 只 认为 在 T2 插入 符合 
搜索 条 件 P 的 记录 时 才 会 引起 幻 读 现象 ， 而 4 Critigue of ANSI SOL lsolation Levels 论文 
中 却 强调 了 T2 进行 INSERT、DELETE、UPDATE 操作 时 均 可 引起 幻 读 现象 . 
| 这 里 需要 注意 的 一 点 是 ， 上 面 关于 脏 写 、 脏 读 、 不 可 重复 读 、 幻 读 的 讨论 均 属 于 理 
$: 论 范畴 ， 不 涉及 具体 数据 库 . 对 于 MySQL 来 说 ， 幻 读 强 调 的 就 是 一 个 事务 在 按照 菜 个 
小 贴 十 ”相同 的 搜索 条 件 多 次 读 取 记录 时 ， 在 后 读 取 时 读 到 了 之 前 没有 读 到 的 记录 . 这 个 “后 读 
取 到 的 之 前 没有 读 到 的 记录 ”可 以 是 由 别 的 事务 执行 INSERT 语 句 插入 的 ， 也 可 能 是 别 
的 事务 执行 了 更 新 记录 键 值 的 UPDATE 语句 而 插入 的 .这些 之 前 读 取 时 不 存在 的 记录 
也 可 以 被 称 为 幻影 记录 。 假设 Tl 先 根据 搜索 条 件 P 读 取 了 一 些 记 录 ， 接 着 T2 删除 了 
一 些 符合 搜索 条 件 P 的 记录 后 提交 ， 如 果 TI 再 读 取 符合 相同 搜索 条 件 的 记录 时 获得 了 
不 同 的 结果 集 ， 我 们 就 可 以 把 这 种 现象 认为 是 结果 集中 的 每 ， 条 记录 分 别 发 生 了 不 可 重 
复读 现象 . | 5 
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21.2.2 ”SQL 标准 中 的 4 种 隔离 级 别 


前 文 介绍 了 在 并 发 事务 执行 过 程 中 可 能 会 遇 到 的 一 些 现象 ， 这 些 现象 可 能 会 对 事务 的 一 至 
性 产生 不 同 程度 的 影响 。 我 们 按照 可 能 导致 一 致 性 问题 的 严重 性 给 这 些 现象 排 一 下 序 : 


脏 写 > 脏 读 > 不 可 重复 读 > 幻 读 


eta oe etdhe aries evan eae epee emp mn 
隔离 级 别 越 低 ， 就 越 可 能 发 生 越 严重 的 问题 。 有 一 帮 人 (并 不 是 设计 MySQL 的 大 叔 ) 制定 了 
一 个 SQL 标准 ， 在 标准 中 设立 了 4 个 隔离 级 别 。 

e READ UNCOMMITTED : 未 提交 读 。 

e READ COMMITTED : 已 提交 读 。 

@ REPEATABLE READ : 可 重复 读 。 

e SERIALIZABLE : 可 串 行 化 。 

SQL 标准 中 规定 (是 SQL 标准 中 规定 ， 不 是 MySQL 中 规定 ): 针对 不 同 的 隔离 级 别 ， 并 
发 事务 执行 过 程 中 可 以 发 生 不 同 的 现象 ， 具 体 情 况 见 表 21-1。 







表 21-1 ”SQL 标准 中 规定 的 并 发 事务 执行 过 程 中 可 以 发 生 的 现象 

Epo | I | | 

pear | Fw | mm | 二 

aa | Fa | | 
as | Fw | i | 

也 就 是 说 : 

e 在 READ UNCOMMITTED 隔离 级 别 下 ， 可 能 发 生 脏 读 、 不 可 重复 读 和 幻 读 现象 ; 

e 在 READ COMMITTED 隔离 级 别 下 ， 可 能 发 生 不 可 重复 读 和 幻 读 现象 ， 但 是 不 可 能 发 
生 脏 读 现象 ; | 

e 在 REPEATABLE READ 隔离 级 别 下 ， 可 能 发 生 幻 读 现 象 ， 但 是 不 可 能 发 生 脏 读 和 不 
可 重复 读 的 现象 ; 

e 在 SERIALIZABLE 隔离 级 别 下 ， 上 述 各 种 现象 都 不 可 能 发 生 。 

脏 写 是 怎么 回 事 儿 ? 怎么 上 面 都 没 提 到 呢 ? 这 是 因为 脏 写 这 个 现象 对 一 致 性 影响 太 严 重 

了 ， 无 论 是 哪 种 隔离 级 别 ， 都 不 允许 脏 写 的 情况 发 生 。 


其 实 SQL 92 标准 中 并 没有 指出 脏 写 现象 ， 我 们 参照 论文 4 Critique of ANSI SQL 
滥 : Jsolation Levels 引入 了 脏 写 现象 ， 是 为 了 各 位 同 学 更 好 地 理解 隔 离 级 别 。 另 外 ， 在 该 论 
小 十 文中 ， 还 引入 了 更 多 可 能 中 发 一 致 性 问题 的 现象 ， 比 方 说 丢失 更 新 、 读 仿 针 、 写 偏 针 

等 ， 以 及 划分 了 更 详细 的 隔离 级 别 。 大 家 可 以 找到 该 论文 仔细 研读 一 下 . 


ed 
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21.2.3 ”MySQL 中 支持 的 4 种 隔离 级 别 


不 同 的 数据 库 厂 商 对 SQL 标准 中 规定 的 4 种 隔离 级 别 的 支持 不 一 样 。 比 如 ，Oracle 就 只 
支持 READ COMMITTED 和 SERIALIZABLE 隔离 级 别 。 本 书 讨论 的 MySQL 虽然 支持 4 种 
隔离 级 别 ， 但 与 SQL 标准 中 规定 的 各 级 隔离 级 别 允 许 发 生 的 现象 却 有 些 出 入 一 一 MySQL 在 
REPEATABLE READ 隔离 级 别 下 ， 可 以 很 大 程度 上 禁止 幻 读 现 象 的 发 生 〈 关 于 如 何 禁 止 会 在 
后 文 详细 说 明 )。 

MySQL 的 默认 隔离 级 别 为 REPEATABLE READ。 


设置 事务 的 隔离 级 别 
如 果 我 们 想 让 事务 在 不 同 的 隔离 级 别 中 运行 ， 可 以 通过 下 面 的 语句 修改 事务 的 隔离 级 别 : 


SET [GLOBAL|SESSION] TRANSACTION ISOLRATION LEVEL level; z 


其 中 ， level 有 +4 个 可 选 值 : 


< ”a Bs 


level: 1 
REPEATABLE READ 
| READ COMMITTED z 
| READ UNCOMMITTED ， 
| SERIALIZABLE 
} 


在 设置 事务 隔离 级 别 的 语句 中 ， 在 SET 关键 字 后 面 可 以 放置 GLOBAL 关键 字 、SESSION 
关键 字 或 者 什么 都 不 放 ， 这 样 会 对 不 同 范围 的 事务 产生 不 同 的 影响 。 具 体 如 下 。 

e 使 用 GLOBAL 关键 字 (在 全 局 范围 产生 影响 ): 

比如 下 面 这 样 : 


SET GLOBAL TRANSACTION ISOLATION LEVEL SERIALIZABLE; 


则 : ， 
@ 只 对 执行 完 该 语句 之 后 新 产生 的 会 话 起 作用 ; 
@ 当前 已 经 存在 的 会 话 无 效 。 

e@ 使 用 SESSION 关键 字 (在 会 话 范围 产生 影响 ): 


SET SESSION TRANSACTION ISOLRATION LEVEL SERIALIZABLE; 


则 : 
”对 当前 会 话 所 有 的 后 续 事务 有 效 ; / 
@ 该 语句 可 以 在 已 经 开启 的 事务 中 执行 ， 但 不 会 影响 当前 正在 执行 的 事务 ; 
m ”如果 在 事务 之 间 执 行 ， 则 对 后 续 的 事务 有 效 。 

e 上 述 两 个 关键 字 都 不 使 用 (只 对 执行 SET 语句 后 的 下 一 个 事务 产生 影响 ): : 


比如 下 面 这 样 : 


SET TRANSACTION ISOLATION LEVEL SERIALIZABLE; 





则 : 
m 只 对 当前 会 话 中 下 一 个 即将 开启 的 事务 有 效 ; 


。 人 


m ”该 语句 不 能 在 已 经 开启 的 事务 中 执行 ， 否 则 会 报错 。 ] 
如 果 在 服务 器 启动 时 想 改变 事务 的 默认 隔离 级 别 ， 可 以 修改 启动 选项 transaction-isolation 
的 值 。 比 如 我 们 在 启动 服务 器 时 指定 了 --transaction-isolation=SERIALIZABLE， 那 么 事务 的 默 
认 隔 离 级 别 就 从 原来 的 REPEATABLE READ 变 成 SERIALIZABLE。 
可 以 通过 查看 系统 变量 transaction isolation 的 值 来 确定 当前 会 话 默 认 的 隔离 级 别 : 


mysql> SHOW VARIABLES LIKE 'transaction isolation'; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Variable name | Val | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| transaction isolation | REPEATABLE~-READ | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
1 row in set (0.02 sec) 

或 者 使 用 更 简便 的 写法 : 


mysql> SELECT 8etransaction isolation; 


1 row in set (0.00 sec) 


我 们 之 前 使 用 SET TRANSACTION 语法 来 设置 事务 的 隔离 级 别 时 ， 其 实 就 是 在 间接 设置 

系统 变量 transaction isolation 的 值 。 我 们 也 可 以 通过 直接 修改 系统 变量 transaction isolation 来 设 

置 事务 的 隔离 级 别 。 系 统 变量 一 般 只 有 GLOBAL 和 SESSION 两 个 作用 范围 ， 不 过 transaction 

isolation 却 有 3 个 《GLOBAL、SESSION、 仅 作用 于 下 一 个 事务 )， 所 以 通过 修改 transaction_ 
isolation 系统 变量 的 值 来 设置 事务 的 隔离 级 别 的 语法 比较 特殊 ， 如 表 21-2 所 示 。 


表 21-2 设置 隔离 级 别 的 语法 
语法 作用 范围 
SET GLOBAL transaction isolation = 个 隔离 级 别 | 全 局 
SET @Q@GLOBAL.var name = 某 个 隔 别 全 局 
SET SESSION var_name = 某 个 隔离 级 会 话 
SET @@SESSION.var name = 某 个 隔 和 绷 别 会 话 


SET var_name = 某 个 隔离 级 别 
SET @@var_name = 某 个 隔离 级 别 


下 一 个 事务 


另外 ，transaction isolation 是 在 MySQL 5.7.20 的 版 本 中 引入 的 ， 用 来 替换 tx_isolation。 如 
果 大 家 使 用 的 是 之 前 版 本 的 MySQL， 请 到 前 文中 将 用 到 系统 变量 transaction isolation 的 地 方 
蔡 换 为 tx isolation。 


| 
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21.3 MVCC 原理 


21.3.1 版 本 链 


我 们 在 前 面 说 过 ， 对 于 使 用 InnoDB 存储 引擎 的 表 来 说 ， 它 的 聚 簇 索 引 记 录 中 都 包含 下 面 
这 两 个 必要 的 隐藏 列 〈(row id 并 不 是 必要 的 ; 在 创建 的 表 中 有 主键 时 ， 或 者 有 不 允许 为 NULL 
的 UNIQUE 键 时 ， 都 不 会 包含 row_id 列 )。 
e trx id : 一 个 事务 每 次 对 某 条 聚 簇 索引 记录 进行 改动 时 ， 都 会 把 该 事务 的 事务 id 赋值 
给 trx id 隐藏 列 。 
e@ roll pointer : 每 次 对 某 条 聚 簇 索 引 记录 进行 改动 时 ， 都 会 把 旧 的 版 本 写 入 到 undo 日 志 
中 。 这 个 隐藏 列 就 相当 于 一 个 指针 ， 可 以 通过 它 找 到 该 记录 修改 前 的 信息 。 
比如 ， 表 hero 中 现在 只 包含 一 条 记录 : 


AR vy "eM -a 


mysql> SELECT * FROM hero; 


+ 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 
| number | name | country | 
+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
| 1 | 齐备 1| 罚 | 
十 一 -一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.07 sec) 
假设 插入 该 记录 的 事务 id 为 80， 那 么 此 刻 该 条 记录 的 示意 图 如 图 21-2 所 示 。 


number trx de mado 一 





图 21-2 ”插入 该 记录 的 事务 id 为 80 


实际 上 insert undo 日 志 只 在 事务 回 滚 时 发 生 作 用 。 当 事务 提交 后 ， 该 类 型 的 undo 
日 志 就 没 用 了 ， 它 占用 的 Undo Log Segment 也 会 被 系统 回收 (也 就 是 该 undo 日 志 
占用 的 Undo 页 面 链表 要 么 被 重用 ， 要 么 被 释放 )。 虽 然 真正 的 insert undo 日 志 占 用 
~>- ”的 存储 空间 被 回收 了 ， 但 是 roll_pointer 的 值 并 不 会 被 清除 。roll_pointer 属性 占用 7 
9: 字 节 ， 第 一 个 比特 就 标记 着 它 指向 的 undo 日 志 的 类 型 。 如果 该 比特 的 值 为 1， 就 表 
小 贴 士 ” 示 它 指向 的 undo 日志 属 于 TRX UNDO INSERT 大 类 ， 也 就 是 该 undo 日 志 为 insert 
undo 日志 . 
下 面 的 内 容 是 为 了 展示 undo 日 志 在 MVCC 中 的 应 用 ， 而 不 是 在 事务 回 滚 中 的 应 用 ， 
所 以 后 文 的 图 中 都 会 把 insert undo 日 志 去 掉 ， 大 家 需要 留意 。 


假设 之 后 两 个 事务 id 分 别 为 100、200 的 事务 对 这 条 记录 进行 UPDATE 操作 ， 操 作 流 程 
如 图 21-3 所 示 。 
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机 这 21-3 UPDATE 操作 流程 


是 和 否 可 以 在 两 个 事务 中 交叉 更 新 同一 条 记录 呢 ? 不 可 以 ! 这 不 就 是 一 个 事务 修改 了 
->X- 另 一 个 未 提交 事务 修改 过 的 数据 ， 沦 为 脏 写 了 么 .InnoDB 使 用 锁 来 保证 不 会 出 现 脏 写 
- 国 、 现象 、 也 就 是 在 第 一 个 再 务 更 新 森 条 记录 前 ， 就 会 给 这 条 记录 加 锁 ， 另 一 个 事务 再 次 更 


小 贴 士 ”新 该 记录 时 ， 就 需要 等 待 第 一 个 事务 提交 ， 把 锁 释放 之 后 才 可 以 继续 更 新 关于 锁 的 更 
多 细节 ， 会 在 第 22 章 再 嘴 中 . j 


每 对 记录 进行 一 次 改动 ， 都 会 记录 一 条 undo 日 志 。 每 条 undo 日 志 也 都 有 一 个 roll_pointer 
属性 (INSERT 操作 对 应 的 undo 日 志 没 有 该 属性 ， 因 为 INSERT 操作 的 记录 并 没有 更 早 的 版 
本 )， 通 过 这 个 属性 可 以 将 这 些 undo 日 志 串 成 一 个 链表 ， 所 以 现在 的 情况 如 图 21-4 所 示 。 







END ee me country 


TS 宙 


二 
oo 3 





TXT 
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图 21-4 页面 中 的 记录 和 该 记录 对 应 的 undo 日 志 串 成 了 一 个 版 本 链 


在 每 次 更 新 该 记录 后 ， 都 会 将 
随 着 更 新 次 数 的 增多 ， 所 有 的 版 





旧 值 放 到 一 条 undo 日 志 中 (就 算是 该 记录 的 一 个 旧版 本 )。 


都 会 被 roll_pointer 属性 连接 成 一 个 链表 ， 这 个 链表 称 为 
版 本 链 。 版 本 链 的 头 节点 就 是 当前 记录 的 最 新 值 。 另 外 ， 每 个 版 本 中 还 包含 生成 该 版 本 时 对 


应 的 事务 ia。 这 个 信息 很 重要 ， 们 稍 后 就 会 用 到 。 我 们 之 后 会 利用 这 个 记录 的 版 本 链 来 控 
制 并 发 事务 访问 相同 记录 时 的 行为 ， 我 们 把 这 种 机 制 称 之 为 多 版 本 并 发 控制 (Multi-Version 


| 
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Concurrency Control，MVCC ) 。 












的 列 的 信息 2 人 在 图 31 寺中 展示 的 undo 日 志 
将 一 条 记录 的 和 ey ee er 有 
中 在 个 天 的 便当 和 全 比方 说 对 于 in id 条 ano 日 志 示 说， 本 身 是 


Pl 
i A ny 站 
人 









如 er 日 ee 







E 人 2 然 ， 如 果 各 个 版 本 的 undo 9 志 都 
ee 沈 册 这 列 从 趟 被 更 新 过 ， tx 刘 为 80， 的 避风 本 的 contry 3 到 


的 值 就 和 数据 贡 中 的 聚 镍 索引 记录 的 country 列 的 值 相同 。 


21.3.2 ReadView 


对 于 使 用 READ UNCOMMITTED 隔离 级 别 的 事务 来 说 ， 由 于 可 以 读 到 未 提交 事务 修改 
过 的 记录 ， 所 以 直接 读 取 记 录 的 最 新 版 本 就 好 了 ; 对 于 使 用 SERIALIZABLE 隔离 级 别 的 事 
务 来 说 ， 设 计 InnoDB 的 大 叔 规 定 使 用 加 锁 的 方式 来 访问 记录 (加 锁 会 在 第 22 章 介 绍 ); 对 于 
使 用 READ COMMITTED 和 REPEATABLE READ 隔离 级 别 的 事务 来 说 ， 都 必须 保证 读 到 已 
经 提交 的 事务 修改 过 的 记录 。 也 就 是 说 假如 另 一 个 事务 已 经 修改 了 记录 但 是 尚未 提交 ， 则 不 
能 直接 读 取 最 新 版 本 的 记录 。 核 心 问题 就 是 : 需要 判断 版 本 链 中 的 哪个 版 本 是 当前 事务 可 见 
的 。 为 此 ， 设 计 InnoDB 的 大 叔 提 出 了 ReadView (有 的 地 方 翻译 成 “一 致 性 视图 ”) 的 概念 。 
这 个 ReadView 中 主要 包含 4 个 比较 重要 的 内 容 。 

e m ids : 在 生成 ReadView 时 ， 当 前 系统 中 活跃 的 读 写 事务 的 事务 id 列表 。 

e min trx id : 在 生成 ReadView 时 ， 当 前 系统 中 活跃 的 读 写 事务 中 最 小 的 事务 id ; 也 就 

是 m_ids 中 的 最 小 值 。 
e max_trx_id : 在 生成 ReadView 时 ， 系 统 应 该 分 配给 下 一 个 事务 的 事务 id 值 。 


| ”注意 max_trx 过 并 不 是 严 ids 中 的 最 大 值 。 事 务 记 是 北 增 分 配 的 .比如 现在 有 事 
他: 务 记分 别 为 1 2、3 的 这 3 个 事务 ， 之 后 事务 记 为 3 的 事务 提交 了 ， 那 么 一 个 新 的 读 
小 贴 二 事务 在 生成 ReedViem 时 ，m-ids 就 包括 1 和 2， min tx 这 的 值 就 是 1，max tx_id 的 





值 就 是 4. 
@ creator trx id : 生成 该 ReadView 的 事务 的 事务 id。 
Ng 1 计生 EA Ee 
S: et 只 有 在 对 家 让 二 亲 这 和 丰 这 罗江 (执行 INSERT. DELETE. UPDATE 


i 这 些 请 名 对 才 会 为 事务 分 配 唯 -的 事务 这， 否则 一 个 事务 的 事务 守 值 都 下 认为 0 = 


有 了 这 个 ReadView 后 ， 在 访问 某 条 记录 时 ， 只 需要 按照 下 面 的 步骤 来 判断 记录 的 某 个 版 
本 是 否 可 见 。 


a FU US OV ST SE WI oT EE Oy wy 


e 如 果 被 访问 版 本 的 trx id 属性 值 与 ReadView 中 的 creator trx id 值 相同 ， 意 味 着 当前 | 
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事务 在 访问 它 自己 修改 过 的 记录 ， 所 以 该 版 本 可 以 被 当前 事务 访问 。 
e 如果 被 访问 版 本 的 trx_id 属性 值 小 于 ReadView 中 的 min tr id 值 ， 表 明生 成 该 版 本 的 
事务 在 当前 事务 生成 ReadView 前 已 经 提交 ， 所 以 该 版 本 可 以 被 当前 事务 访问 。 
e 如 果 被 访问 版 本 的 trx_id 属性 值 大 于 或 等 于 ReadView 中 的 max_trx id 值 ， 表 明生 
成 该 版 本 的 事务 在 当前 事务 生成 ReadView 后 才 开 启 ， 所 以 该 版 本 不 可 以 被 当前 事务 
访问 。 z 
8 如 果 被 访问 版 本 的 trx id 属性 值 在 ReadView 的 min trx id 和 max tr id 之 间 ， 则 需要 
判断 trx_id 属性 值 是 否 在 m_ids 列表 中 。 如 果 在 ， 说 明 创建 ReadView 时 生成 该 版 本 的 
事务 还 是 活跃 的 ， 该 版 本 不 可 以 被 访问 ;如 果 不 在 ， 说 明 创建 ReadView 时 生成 该 版 
本 的 事务 已 经 被 提交 ， 该 版 本 可 以 被 访问 。 
如 果 某 个 版 本 的 数据 对 当前 事务 不 可 见 ， 那 就 顺 着 版 本 链 找到 下 一 个 版 本 的 数据 ， 并 继 
续 执 行 上 面 的 步骤 来 判断 记录 的 可 见 性 ; 依 此 类 推 ， 直 到 版 本 链 中 的 最 后 一 个 版 本 。 如 果 记 录 
的 最 后 一 个 版 本 也 不 可 见 ， 就 意味 着 该 条 记录 对 当前 事务 完全 不 可 见 ， 查 询 结果 就 不 包含 该 
记录 。 
在 MySQL 中 ，READ COMMITTED 与 REPEATABLE READ 隔离 级 别 之 间 一 个 非常 大 的 
区 别 就 是 它们 生成 ReadView 的 时 机 不 同 。 我 们 还 是 以 表 hero 为 例 来 说 明 。 假 设 现在 表 hero 
中 只 有 一 条 由 事务 id 为 80 的 事务 插入 的 记录 : 


mysql> SELECT * FROM hero; 


十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 

| number | name | country | 
! + 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
> | 1 | 刘备 | 列 | 
， 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 中 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.07 sec) 


接 下 来 看 一 下 在 READ COMMITTED 和 REPEATABLE READ 隔离 级 别 下 ， 所 谓 的 生成 
ReadView 的 时 机 不 同 到 底 是 在 哪里 不 同 。 


1. READ COMMITTED 每 次 读 取 数 据 前 都 生成 一 个 ReadView 
比如 ， 现 在 系统 中 有 两 个 事务 id 分 别 为 100、200 的 事务 正在 执行 : 


# Transaction 100 # _ Transaction 200 
BEGIN ， BEGIN,; 


| UPDATE hero SET name = 1! 张 飞 ! WHERE number = 1; 


UPDATE hero SET name = ' 关 羽 ' WHERE number = 1; # 更 新 了 一 些 别 的 表 的 记录 


TE 
J 再 次 强调 ， 在 事务 执行 过 程 中 ， 只 有 在 第 一 次 正 修改 记录 时 ( 比如 使 用 INSERT、 
9 DELETE、UPDATE 语句 )， 才 会 分 配 一 个 唯一 的 3 务 id 而且 这 个 事务 id 是 递增 的 。 
小 贴 士 “所 以 我 们 刚才 在 Transaction 200 中 更 新 一 些 别 的 。 的 记录 ， 目的 是 为 它 分 配 事务 id。 一 


此 时 ， 表 hero 中 number 为 1 的 记录 对 应 的 版 本 链表 如 图 21-5 所 示 。 
| | 号 







| 
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图 21-5 number 为 1 的 记录 对 应 的 版 本 链表 


假设 现在 有 一 个 使 用 READ COMMITTED 隔离 级 别 的 新 事务 开始 执行 〈 注 意 是 新 事务 ， 
不 是 事务 id 为 100、200 的 那 两 个 事务 ): 


# 使 用 READ COMMITTED 隔 离 级 别 的 事务 
BEGIN; 


# SELECT1: Transaction 100、200 未 提交 
SELECT * FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 刘备 ' 


这 个 SELECTI1 的 执行 过 程 如 下 。 
步骤 1， 在 执行 SELECT 语句 时 先生 成 一 个 ReadView。ReadView 的 m ids 列表 的 内 容 就 是 
[100, 200]，min trx id 为 100，max trx id 为 201，creator trx id 为 0。 
注 : 过 人 i 开户 的 事务 并 没有 对 任何 记录 进行 任何 改动 ， 所 以 系统 并 不 会 为 它 分 配 唯一 
小 耻 二 的 事务 id， 它 的 事务 id 是 默认 的 0. 这 也 就 导致 生成 的 ReadView 的 creator trx id 值 为 0. 


步骤 2. 然后 从 版 本 链 中 挑选 可 见 的 记录 。 从 图 21-5 中 可 以 看 出 ， 最 新 版 本 的 name 列 的 内 
容 是 ' 张 飞 '， 该 版 本 的 trx_id 值 为 100， 在 m ids 列表 内 ， 因 此 不 符合 可 见 性 要 求 ; 
根据 roll pointer 跳 到 下 一 个 版 本 。 

步骤 3. 下 一 个 版 本 的 name 列 的 内 容 是 ' 关 羽 '， 该 版 本 的 trx_id 值 也 为 100， 也 在 m ids 
列表 内 ， 因 此 也 不 符合 要 求 ; 继续 跳 到 下 一 个 版 本 。 

步骤 4. 下 一 个 版 本 的 name 列 的 内 容 是 ' 刘 备 '， 该 版 本 的 trx_id 值 为 80， 小 于 ReadView 
中 的 min_trx id 值 100， 所 以 这 个 版 本 是 符合 要 求 的 ; 最 后 返回 给 用 户 的 版 本 就 是 
这 条 name 列 为 "刘备 ' 的 记录 。 

之 后 ， 我 们 把 事务 id 为 100 的 事务 进行 提交 ， 如 下 所 示 : 


# Transaction 100 
BEGIN; 


UPDATE hero SET name = ' 关 羽 ' WHERE number = 1; 
UPDATE hero SET name = !' 张 飞 ! WHERE number = 1; 


COMMIT; 


然后 再 到 事务 id 为 200 的 事务 中 更 新 表 hero 中 number 为 1 的 记录 : 





， 


Fe 


Ri 
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# Transaction 200 
BEGIN; 


# 更 新 了 一 些 别 的 表 的 记录 


UPDATE hero SET name = ' 赵 云 ' |WHERE number = 1; 
UPDATE hero SET name = ' 诸 葛 亮 ' WHERE number = 1; 


此 时 ， 表 hero 中 number 为 1 的 记录 的 版 本 链 如 图 21-6 所 示 。 


country 





number trx id ro ee name 








图 21-6 表 hero 中 number 为 1 的 记录 的 版 本 链 
然后 再 到 刚才 使 用 READ COMMITTED 隔离 级 别 的 事务 中 执行 SELECT2， 继续 查找 这 个 
number 为 1 的 记录 ， 如 下 : 


# 使 用 READ COMMITTED 陋 离 级 别 的 事务 
BEGIN; 


# SELECT1: Transaction 100、200 均 未 提交 
SELECT * FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 ' 刘 备 ' 


| 
# SELECT2: Transaction 100 提 交 | Transaction 200 未 提交 
SELECT * FROM hero WHERE number = 1; $# 得 到 的 列 name 的 值 为 ' 张 飞 ' 


| 这 个 SELECT2 的 执行 过 程 如 下 。 
步 又 1， 在 执行 SELECT 语句 时 又 会 单独 生成 一 个 ReadView。 该 ReadView 的 m ids 列表 的 
内 容 就 是 [200] (事务 id 为 100 的 那个 事务 已 经 提交 了 ， 所 以 再 次 生成 READVIEW 


时 就 没有 它 了 )，min_trx_id 为 200，max trx id 为 201， creator trx id 为 0。 

步骤 2， 从 版 本 链 中 挑选 可 见 的 记录 。 从 图 21-6 中 可 以 看 出 ， 最 新 版 本 的 name 列 的 内 容 
是 ' 诸葛亮 '， 该 版 本 的 tr 这 值 为 200， 在 m_ids 列表 内 ， 因 此 不 符合 可 见 性 要 求 ; 
根据 roll_pointer 跳 到 下 一 个 版 本 。 

步骤 3. 下 一 个 版 本 的 name 列 的 内 容 是 ' 赵 云 '， 该 版 本 的 trx id 值 为 200， 也 在 m ids 列 
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表 内 ， 因 此 也 不 符合 要 求 ; 继续 跳 到 下 一 个 版 本 。 
步骤 4. 下 一 个 版 本 的 name 列 的 内 容 是 ' 张 飞 '， 该 版 本 的 trx_id 值 为 100， 小 于 ReadView 
中 的 min trx id 值 200， 所 以 这 个 版 本 是 符合 要 求 的 ; 最 后 返回 给 用 户 的 版 本 就 是 
这 条 name 列 为 ' 张 飞 ' 的 记录 。 
依 此 类 推 ， 如 果 之 后 事务 id 为 200 的 记录 也 提交 了 ， 再 次 在 使 用 READ COMMITTED 隔 
离 级 别 的 事务 中 查询 表 hero 中 number 值 为 1 的 记录 时 ， 得 到 的 结果 就 是 ' 诸葛 亮 ' 了 。 有 具体 
流程 这 里 就 不 分 析 了 。 总 结 一 下 就 是 : 使 用 READ COMMITTED 隔离 级 别 的 事务 在 每 次 查询 
开始 时 都 会 生成 一 个 独立 的 ReadView。 


2. REPEATABLE READ 一 一 在 第 一 次 读 取 数 据 时 生成 一 个 ReadView 


对 于 使 用 REPEATABLE READ 隔离 级 别 的 事务 来 说 ， 只 会 在 第 一 次 执行 查询 语句 时 生成 
一 个 ReadView， 之 后 的 查询 就 不 会 重复 生成 ReadView 了 。 我 们 还 是 用 例子 来 看 一 下 效果 。 
比如 ， 现 在 系统 中 有 两 个 事务 id 分 别 为 100、200 的 事务 正在 执行 


# Transaction 100 # Transaction 200 
BEGIN; BEGIN; 


UPDATE hero SET name = ' 关 羽 ' WHERE Dai = 1; # 更 新 了 一 些 别 的 表 的 记录 


UPDATE hero SET name = ! 张 飞 ! WHERE number = 1; 


此 时 ， 表 hero 中 number 为 1 的 记录 的 版 本 链表 如 图 21-7 所 示 。 


phder trx id roll _Ponter name country 





图 21-7 表 hero 中 number 为 1 的 记录 得 到 的 版 本 链表 


假设 现在 有 一 个 使 用 REPEATABLE READ 隔离 级 别 的 新 事务 开始 执行 


# 使 用 REPEATABLE READ 隔 离 级 别 的 事务 
BEGIN; 


# SELECT1; Transaction 100、200 未 提交 

SELECT * FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 "刘备 ， 

这 个 SELECTI1 的 执行 过 程 如 下 。 

步骤 1. 在 执行 SELECT 语句 时 会 先生 成 一 个 ReadView。ReadView 的 m ids 列表 的 内 容 就 
是 [100,200]，min trx id 为 100，max trx id 为 201，creator trx id 为 0。 

步骤 2. 然后 从 版 本 链 中 挑选 可 见 的 记录 。 从 图 21-7 中 可 以 看 出 ， 最 新 版 本 的 name 列 的 内 
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容 是 ' 张 飞 '， 该 版 本 的 tx 过 值 为 100， 在 m ids 列表 内 ， 因 此 不 符合 可 见 性 要 求 


根据 roll_pointer 跳 到 下 一 个 版 本 。 


列表 内 ， 因 此 也 不 符合 要 求 ， 继续 跳 到 下 一 个 版 本 。 


这 条 name 列 为 ' 刘 备 ' 的 记录 。 
之 后 ， 我 们 把 事务 id 为 100 的 事务 进行 提交 ， 如 下 所 示 : 


# Transaction 100 
BEGIN; 


UPDATE hero SET name = ' 关 羽 ' |WHERE number = 1; 


UPDATE hero SET name = !' 张 飞 ! |IWHERE number = 1; 


COMMIT ; 


步骤 3， 下 一 个 版 本 的 name 列 的 内 容 是 ' 关 羽 '， 该 版 本 的 trx_id 值 也 为 100， 也 在 m ids 


步骤 4， 下 一 个 版 本 的 name 列 的 内 容 是 ' 刘 备 '， 该 版 本 的 trx_id 值 为 80， 小 于 ReadView 
中 的 min_trx_id 值 100， 所 以 这 个 版 本 是 符合 要 求 的 ， 最 后 返回 给 用 户 的 版 本 就 是 


然后 再 到 事务 id 为 200 的 事务 中 更 新 表 hero 中 number 为 1 的 记录 : 


# Transaction 200 
BEGIN: 


# 更 新 了 一 些 别 的 表 的 记录 


UPDATE hero SET name = ,赵云 RHERE number = 1; 
UPDATE hero SET name = ' 诸 万 亮 " WHERE number = 1; 


此 时 ， 表 hero 中 number 为 1 的 记录 的 版 本 链 如 图 21-8 所 示 。 


number trx_id roll pointer name country 
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图 21-8 | 表 hero 中 number 为 1 的 记录 的 版 本 链 














396 第 21 章 一 条 记录 的 多 副 面孔 一 一 事务 隔离 级 别 和 MVCC 1 


然后 再 到 刚才 使 用 REPEATABLE READ 隔离 级 别 的 事务 中 继续 查找 这 个 number 为 1 的 
记录 ， 如 下 : 


# 使 用 REPEATABLE READ 隔 离 级 别 的 事务 
BEGIN; 


# SELECT1: Transaction 100、200 均 未 提交 
SELECT * FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 "刘备 ， 


# SELECT2: Transaction 100 提 交 ，Transaction 200 未 提交 
SELECT * FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 仍 为 ' 刘 备 ' 


PP A —- - 


这 个 SELECT2 的 执行 过 程 如 下 。 
步骤 1. 因为 当前 事务 的 隔离 级 别 为 REPEATABLE READ， 而 之 前 在 执行 SELECTI1 时 已 经 
生成 过 ReadView 了 ， 所 以 此 时 直接 复 用 之 前 的 ReadView。 之 前 的 ReadView 的 m_ 
ids 列表 的 内 容 就 是 [100, 200]，min_trx_id 为 100，max trx id 为 201，creator trx id 
为 0。 
步骤 2 然后 从 版 本 链 中 挑选 可 见 的 记录 。 从 图 21-8 中 可 以 看 出 ， 最 新 版 本 的 name 列 的 内 
容 是 ' 诸 葛 亮 '， 该 版 本 的 tr id 值 为 200， 在 m ids 列 表 内 ， 因 此 不 符合 可 见 性 要 求 ; 
根据 roll pointer 跳 到 下 一 个 版 本 。 
步骤 3. 下 一 个 版 本 的 name 列 的 内 容 是 ' 赵 云 '， 该 版 本 的 trx id 值 为 200， 也 在 m ids 列 
表 内 ， 因 此 也 不 符合 要 求 ; 继续 跳 到 下 一 个 版 本 。 
步骤 4. 下 一 个 版 本 的 name 列 的 内 容 是 ' 张 飞 '， 该 版 本 的 trx_id 值 为 100， 而 m ids 列表 
中 是 包含 值 为 100 的 事务 id 的 ， 因 此 该 版 本 也 不 符合 要 求 。 同 理 ， 下 一 个 name 列 
的 内 容 是 ' 关 羽 ' 的 版 本 也 不 符合 要 求 ; 继续 跳 到 下 一 个 版 本 。 
步骤 $. 下 一 个 版 本 的 name 列 的 内 容 是 ' 刘 备 '， 该 版 本 的 trx id 值 为 80， 小 于 ReadView 
中 的 min trx id 值 100， 所 以 这 个 版 本 是 符合 要 求 的 ， 最 后 返回 给 用 户 的 版 本 就 是 
这 条 name 列 为 ' 刘 备 ' 的 记录 。 { 
也 就 是 说 在 REPEATABLE READ 隔离 级 别 下 ， 事 务 的 两 次 查询 得 到 的 结果 是 一 样 的 ， 记 
录 的 name 列 值 都 是 ' 刘 备 '。 这 就 是 可 重复 读 的 含义 。 如 果 我 们 之 后 再 把 事务 id 为 200 的 记 
录 进 行 提交 ， 然 后 再 到 刚才 使 用 REPEATABLE READ 隔离 级 别 的 事务 中 继续 查找 这 个 number 
为 1 的 记录 ， 得 到 的 结果 还 是 ' 刘备 '。 具 体 执行 过 程 大 家 可 以 自己 分 析 一 下 。 
另外 ， 我 们 在 第 18 章 中 介绍 START TRANSACTION 语法 时 提 到 过 一 个 WITH CONSISTENT 
SNAPSHOT 的 修饰 符 。 在 隔离 级 别 是 REPEATABLE READ 时 ， 如 果 使 用 START TRANSACTION 
WITH CONSISTENT SNAPSHOT 语句 开启 事务 ， 会 在 执行 该 语句 后 立即 生成 一 个 ReadView， 而 不 
是 在 执行 第 一 条 SELECT 语句 时 才 生 成 。 


大 家 可 以 自己 营造 一 个 场景 二 使 用 REPEATABLE READ 隔离 级 别 的 事务 T1 先 根 
-ax- “ 据 某 个 搜索 条 件 读 取 到 多 条 记录 ， 然 后 事务 T2 插入 一 条 符合 相应 搜索 条 件 的 记录 并 提 
`、 “ 交 ， 和 然后 事务 TI 再 根据 相同 搜索 条 件 执行 查询 。 结 果 会 是 什么 ， 以 及 为 什么 会 产生 
小 贴 士 ”这 样 的 结果 呢 ? 自 己 按照 上 面 介绍 的 版 本 链 、ReadView 以 及 判断 可 见 性 的 规则 来 分 析 
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21.3.3 二 级 索引 与 MVCC 


我 们 知道 ， 入 有 在 聚 驴 索引 记录 中 才 有 trx_id 和 roll_pointer 隐藏 列 。 如 果 某 个 查询 语句 
是 使 用 二 级 索引 来 执行 查询 的 ， 该 如 何 判断 可 见 性 呢 ? 比如 下 面 这 个 事务 : 


BEGIN; 


SELECT name FROM hero WHERE name = ' 刘 备 '; 


假设 查询 优化 器 决定 先 到 二 级 索引 idx_name 中 定位 name 值 为 ' 刘 备 ' 的 二 级 索引 记录 ， 那 么 
怎么 知道 这 条 二 级 索引 记录 对 这 -4 查询 事务 是 否 可 见 呢 ? 判断 可 见 性 的 过 程 大 致 分 为 下 面 两 步 。 

步骤 1， 二 级 索引 页 面 的 Pdge Header 部 分 有 一 个 名 为 PAGE MAX TRX ID 的 属性 ， 每 
当 对 该 页 面 中 的 记录 执行 增删 改 操作 时 ， 如 果 执 行 该 操作 的 事务 的 事务 这 大 于 
PAGE MAX TRX P 属性 值 ， 就 会 把 PAGE MAX TRX ID 属性 设置 为 执行 该 操 
作 的 事务 的 事务 id。 这 也 就 意味 着 PAGE MAX TRX ID 属性 值 代表 着 修改 该 二 级 
而 大 和 和 这 是 人 。 当 SELECT 语句 访问 某 个 二 级 索引 记录 时 ， 首 先 
会 看 一 下 对 应 的 ReadView 的 min tr id 是 否 大 于 该 页 面 的 PAGE MAX TRX ID 
属性 值 。 如 果 是 ， 说 明 该 页 面 中 的 所 有 记录 都 对 该 ReadView 可 见 ， 否 则 就 得 执行 
步骤 2， 在 回 表 之 后 再 判断 可 见 性 。 

步骤 2， 利 用 二 级 索引 记录 中 的 主键 值 进行 回 表 操作 ， 得 到 对 应 的 聚 信 索 引 记录 后 再 按照 前 
面 讲 过 的 方式 找到 对 该 ReadView 可 见 的 第 一 个 版 本 ， 然 后 判断 该 版 本 中 相应 的 二 
级 索引 列 的 值 是 否 与 利用 该 二 级 索引 查询 时 的 值 相同 。 本 例 中 就 是 判断 找到 的 第 一 
个 可 见 版 本 的 name 值 是 不 是 ' 刘 备 '。 如 果 是 ， 就 把 这 条 记录 发 送 给 客户 端 〈 如 果 
WHERE 子 句 中 还 有 其 他 搜索 条 件 的 话 还 需 继续 判断 ) ， 否 则 就 跳 过 该 记录 。 


21.3.4 MVCC 小 结 


从 前 文 可 以 看 出 ， 所 谓 的 | 指 的 就 是 在 使 用 READ COMMITTD、REPEATABLE READ 
这 两 种 隔离 级 别 的 事务 执行 普通 的 SELECT 操作 时 ， 访 问 记录 的 版 本 链 的 过 程 。 这 样 可 以 使 不 同 
事务 的 读 - 写 、 写 - 读 操 作 并 发 执行 ， 从 而 提升 系统 性 能 。READ COMMITTD、REPEATABLE 
READ 这 两 个 隔离 级 别 有 一 个 很 大 的 不 同 ， 就 是 生成 ReadView 的 时 机 不 同 : READ COMMITTD 在 
每 一 次 进行 普通 SELECT 操作 前 都 会 生成 一 个 ReadView ; 而 REPEATABLE READ 只 在 第 一 次 进 
行 普通 SELECT 操作 前 生成 一 个 ReadView， 之 后 的 查询 操作 都 重复 使 用 这 个 ReadView。 











第 20 章 曾经 讲 到 ， 
立即 把 对 应 的 记录 ( 包 
< 人 个 delete mark 操作 。 这 本 


执行 DELETE 语句 或 者 更 新 键 值 的 UPDATE 语 身 时 ; 并 不 会 

索引 记录 和 三 级 索引 记录 ) 完全 从 页 面 中 删除 ， 而 是 执行 一 

当 于 只 是 给 记录 打上 一 个 出 除 标志 位 。 这 主要 就 是 为 MVCC 服 

YY 、 务 的 ， 比 方 说 事务 TI1 和 事务 T2 并 发 执行 ， 事 务 T1 的 隔离 级 别 为 REPEATABLE READ. 

小 W 士 ”TI 根据 某 些 搜索 条 件 读 取 到 一 条 记录 ， 然后 T2 将 其 删除 ， 然 后 T1 又 根据 同样 的 搜索 条 
件 读 了 记录 . 如 果 T2 执行 的 删除 操作 是 将 该 记录 彻底 删除 的 话 ， Tl 就 再 也 读 不 到 该 记录 
了 ， 所 以 T2 只 是 执行 一 see 在 记录 的 头 信息 中 打 一 个 删除 标记 而 已。 
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另外 ， 只 有 我 们 进行 普通 的 SELECT 查询 时 ，MVCC 才 生 效 。 截 至 目前 ， 我 们 所 见 的 所 
有 SELECT 语句 都 算是 普通 的 查询 ， 至 于 不 普通 的 查询 是 个 喻 样 ， 我 们 下 一 章 再 说 。 


21.4 关于 ge 6 
大 家 有 没有 发 现下 面 两 件 事 。 
@ insert undo 日 志 在 事务 提交 之 后 就 可 以 释放 掉 了 ， 而 update undo 日 志 由 于 还 需要 支持 
MVCC， 因 此 不 能 立即 删除 掉 。 

前 文 说 过 ， 一 个 事务 写 的 一 组 undo 日 志 中 都 有 一 个 Undo Log Header 部 分 ， 这 个 Undo 
Log Header 中 有 一 个 名 为 TRX UNDO HISTORY NODE 的 属性 ， 表 示 一 个 名 为 History 链表 
的 节点 。 当 一 个 事务 提交 之 后 ， 就 会 把 这 个 事务 执行 过 程 中 产生 的 这 一 组 update undo 日 志 插 
入 到 History 链表 的 头 部 。 

前 文 还 说 过 ， 每 个 回 滚 段 都 对 应 一 个 名 为 Rollback Segment Header 的 页 面 。 这 个 页 面 中 有 
下 面 两 个 属性 。 

mm TRX RSEG HISTORY : 表示 History 链表 的 基 节 点 。 
mm TRX RSEG HISTORY_SIZE : 表示 History 链表 占用 的 页 面 数量 。 

也 就 是 说 每 个 回 滚 段 都 有 一 个 History 链表 ， 一 个 事务 在 某 个 回 滚 段 中 写 入 的 一 组 update 
undo 日 志 在 该 事务 提交 之 后 ， 就 会 加 入 到 这 个 回 滚 段 的 History 链表 中 。 系 统 中 可 能 存在 很 多 
回 滚 段 ， 这 也 就 意味 着 可 能 存在 很 多 个 History 链表 。 

不 过 这 些 加 入 到 History 链表 的 update undo 日 志 所 占用 的 存储 空间 也 没有 被 释放 ， 它 们 总 
不 能 一 直 存 在 吧 ? 那 得 用 多 大 的 存储 空间 来 存放 这 些 undo 日 志 呀 。 

e@ 为 了 文 持 MVCC，delete mark 操作 仅仅 是 在 记录 上 打 一 个 删除 标记 ， 并 没有 真正 将 记 

录 删 除 。 

大 家 应 该 还 记得 ， 在 一 组 undo 日 志 中 的 Undo Log Header 部 分 有 一 个 名 为 TRX UNDO_ 
DEL MARKS 的 属性 ， 用 来 标记 本 组 undo 日 志 中 是 否 包 含 因 delete mark 操作 而 产生 的 undo 
贞 志 。 

这 些 打 了 删除 标记 的 记录 也 不 能 一 直 存 在 吧 ? 那 得 多 浪费 存储 空间 呀 。 

为 了 节约 存储 空间 ， 我 们 应 该 在 合适 的 时 候 把 update undo 日 志 以 及 仅仅 被 标记 为 删除 的 
记录 彻底 删除 掉 ， 这 个 删除 操作 就 称 为 purge。 不 过 问题 的 关键 在 于 : 这 个 合适 的 时 候 到 底 是 
什么 时 候 ? 

update undo 日 志和 被 标记 为 删除 的 记录 只 是 为 了 支持 MVCC 而 存在 的 ， 只 要 系统 中 最 早产 
生 的 那个 ReadView 不 再 访问 它们 ， 它 们 的 使 命 就 结束 了 ， 就 可 以 丢 进 历史 的 垃圾 堆 里 了 。 一 个 
ReadView 在 什么 时 候 才 肯定 不 会 访问 某 个 事务 执行 过 程 中 产生 的 undo 日 志 呢 ? 其 实 ， 只 要 我 们 
能 保证 生成 ReadView 时 某 个 事务 已 经 提交 ， 那 么 该 ReadView 肯定 就 不 需要 访问 该 事务 运行 过 
程 中 产生 的 undo 日 志 了 【因为 该 事务 所 改动 的 记录 的 最 新 版 本 均 对 该 ReadView 可 见 )。 

设计 InnoDB 的 大 叔 为 此 做 了 两 件 事 。 

e 在 一 个 事务 提交 时 ， 会 为 这 个 事务 生成 一 个 名 为 事务 no 的 值 ， 该 值 用 来 表示 事务 提交 

的 顺序 ， 先 提交 的 事务 的 事务 no 值 小 ， 后 提交 的 事务 的 事务 no 值 大 。 
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| 

则 过 了 在 一 组 mado 晶 二 中 国库 的 Undo Log Header 部 分 有 一 个 名 为 TRX_UNDO TRX 

NO 的 属性 。 当 事务 提交 时 ， 束 把 该 事务 对 应 的 事务 no 值 填 到 这 个 属性 中 。 因为 事务 no 代表 

看 各 个 事务 提交 的 顺序 ， 而 History 链表 又 是 按照 事务 提交 的 顺序 来 排列 各 组 undo 日 志 的 ， 所 
以 History 链表 中 的 各 组 undo 日 志 也 是 按照 对 应 的 事务 no 来 排序 的 。 

e 一 个 ReadView 结构 除 了 包含 前 面 啼 路 过 的 几 个 属性 之 外 ， 还 会 包含 一 个 事务 no 的 属 

\ 性 。 在 生成 一 个 ReadView 时 ， 会 把 比 当前 系统 中 最 大 的 事务 no 值 还 大 1 的 值 赋 给 这 

个 属性 。 

设计 InnoDB 的 大 叔 还 把 当前 系统 中 所 有 的 ReadView 按照 创建 时 间 连 成 了 一 个 链表 。 当 

执行 purge 操作 时 〈 这 个 purge 操作 是 在 专门 的 后 台 线 程 中 执行 的 )， 就 把 系统 中 最 早生 成 

的 ReadView 给 取出 来 。 如 果 当 前 系统 中 不 存在 ReadView， 就 现场 创建 一 个 (新 创建 的 这 

个 ReadView 的 事务 no 值 肯定 比 当前 己 经 提交 的 事务 的 事务 no 值 大 )。 然 后 从 各 个 回 滚 段 的 

History 链表 中 取出 事务 no 值 较 小 的 各 组 undo 日 志 。 如 果 一 组 undo 日 志 的 事务 no 值 小 于 当 

前 系统 最 早生 成 的 ReadView 的 事务 no 属性 值 ， 就 意味 着 该 组 undo 日 志 没 有 用 了 ， 就 会 从 





History 链表 中 移 除 ， 并 且 释 放 掉 它们 占用 的 存储 空间 。 如 果 该 组 undo 日 志 包 含 因 delete mark 
党 作 而 产生 的 undo 日 志 (TRX_UNDO_DEL MARKS 属性 值 为 1) ， 那 么 也 需要 将 对 应 的 标记 
为 删除 的 记录 给 彻底 删除 。 

这 里 有 一 点 需要 注意 ， 当 前 系统 中 最 早生 成 的 ReadView 决定 了 purge 操作 中 可 以 清理 哪 
学 update undo 日 志 以 及 打 了 删除 标记 的 记录 。 如 果菜 个 事务 使 用 REPEATABIE READ 隔离 级 
别 ， 那 么 该 事务 会 一 直 复 用 最 初 产生 的 ReadView。 假如 这 个 事务 运行 了 很 久 ， 一 直 没 有 提交 ， 
那么 最 早生 成 的 ReadView 会 一 直 不 释放 ， 系 统 中 的 update undo 日 志和 打 了 删除 标记 的 记录 就 


会 越 来 越 多 ， 表 空间 对 应 的 文件 也 会 越 来 越 大 ， 一 条 记录 的 版 本 链 将 会 越 来 越 长 ， 从 而 影响 系 
统 性 能 。 


21.5 总 结 二 


一 “一 ~ 





并 发 的 事务 在 运行 过 程 中 会 出 现 一 些 可 能 引发 一 致 性 问题 的 现象 具体 如 下 (由 于 SQL 
标准 中 对 脏 写 、 脏 读 、 不 可 重复 i 
3QL 1solation Levels 中 对 于 脏 写 、 脏 读 、 不 可 重复 读 以 及 幻 读 现象 的 定义 )。 

e 脏 写 : 一 个 事务 修改 了 另 一 个 未 提交 事务 修改 过 的 数据 。 

e 脏 读 : 广义 解释 是 一 个 事务 读 到 了 另 一 个 未 提交 事务 修改 过 的 数据 。 它 也 有 对 应 的 严 

格 解释 ， 请 到 本 章 前 文 参考 详情 。 
e@ 不 可 重复 读 : 广义 解释 
的 严格 解释 ， 请 到 本 章 前 
e 约 读 : 一 个 事务 先 根 据 
务 写 入 了 一 些 符合 那些 
详情 。 

SQL 标准 中 的 4 种 隔离 级 别 如 下 所 示 。 

© READ UNCOMMITTED : 









一 个 事务 修改 了 另 一 个 未 提交 事务 读 取 的 数据 。 它 也 有 对 应 
参考 详情 。 

些 搜索 条 件 查询 出 一 些 记录 ， 在 该 事务 未 提交 时 ， 另 一 个 事 
索 条 件 的 记录 。 它 也 有 对 应 的 严格 解释 ， 请 到 本 章 前 文 参考 


可 能 发 生 脏 读 、 不 可 重复 读 和 幻 读 现象 。 








以 及 幻 读 的 定义 比较 模糊 ， 本 书 采 用 论文 4 Critique of ANST 
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e@ READ COMMITTED : 可 能 发 生 不 可 重复 读 和 幻 读 现象 ， 但 是 不 可 能 发 生 脏 读 现象 。 

@ REPEATABLE READ : 可 能 发 生 幻 读 现象 ， 但 是 不 可 能 发 生 脏 读 和 不 可 重复 读 的 现象 。 

e@ SERIALIZABLE : 各 种 现象 都 不 可 以 发 生 。 

实际 上 ，MySQL 在 REPEATABLE READ 隔离 级 别 下 是 可 以 在 很 大 程度 上 禁止 出 现 幻 读 现 
象 的 。 

下 面 的 语句 用 来 设置 事务 的 隔离 级 别 : 


SET [GLOBALI|SESSION] TRANSACTION ISOLRATION LEVEL level; 


聚 簇 索引 记录 和 undo 日 志 中 的 roll pointer 属性 可 以 串 连 成 一 个 记录 的 版 本 链 。 

通过 生成 ReadView 来 判断 记录 的 某 个 版 本 的 可 见 性 ， 其 中 READ COMMITTD 在 每 一 次 
进行 普通 SELECT 操作 前 都 会 生成 一 个 ReadView， 而 REPEATABLE READ 只 在 第 一 次 进行 
普通 SELECT 操作 前 生成 一 个 ReadView， 之 后 的 查询 操作 都 重复 使 用 这 个 ReadView。 

当前 系统 中 ， 如 果 最 早生 成 的 ReadView 不 再 访问 undo 日 志 以 及 打 了 删除 标记 的 记录 ， 
则 可 以 通过 purge 操作 将 它们 清除 。 
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<2.1 解决 并 发 事务 带 来 问题 的 两 种 基本 方式 


第 21 草 只 归 了 事务 在 并 发 执行 时 可 能 引发 一 致 性 问题 的 各 种 现象 。 并 发 事务 访问 相同 记 
条 的 情况 大 致 可 以 划分 为 3 种。 

e 谈 - 读 情况 : 并 发 事务 相继 读 取 相同 的 记录 .。 读 取 操作 本 身 不 会 对 记录 有 任何 影响 ， 

个 会 引起 什么 问题 ， 所 以 允许 这 种 情况 的 发 生 。 

9 与 - 写 情况 : 并 发 事务 相继 对 相同 的 记录 进行 改动 。 

e 谈 - 写 或 写 - 读 情况 : 也 就 是 一 个 事务 进行 读 取 操 作 ， 为 一 个 事务 进行 改动 操作 。 

22.1.1 写 - 写 情况 

首先 来 看 写 - 写 情况 。 

前 面 章节 说 过 ， 在 写 - 写 情 况 下 会 发 生 脏 写 的 现象 ， 任何 一 种 隔离 级 别 都 不 允许 这 种 现象 
的 友 生 。 所 以 在 多 个 未 提交 事务 继 对 一 条 记录 进行 改动 时 ， 需要 让 它们 排队 执行 。 这 个 排队 
的 过 程 其 实 是 通过 为 该 记录 加 锁 来 实现 的 。 这 个 “ 锁 ” 本 质 上 是 一 个 内 存 中 的 结构 ， 在 事务 执 
行 之 前 本 来 是 没有 锁 的 ， 也 束 是 说 一 开始 是 没有 锁 结构 与 记录 进行 关联 的 ， 如 图 22-1 所 示 。 

当 一 个 事务 想 对 这 条 记录 进行 改动 时 ， 自 先 会 看 看 内 存 中 有 没有 与 这 条 记录 关联 的 锁 结 
构 ; 如果 没有 ， 束 会 在 内 存 中 生成 一 个 锁 结 构 与 之 关联 。 比如 ， 事 务 T1 要 对 这 条 记录 进行 改 
动 ， 就 需要 生成 一 个 锁 结构 与 之 关联 ， 如 图 22.2 所 示 。 


TO 


图 22-1 事务 执行 之 前 没有 图 22-2” 锁 结构 与 记录 关联 
锁 结构 与 记录 进行 关联 


锁 结构 





| 
其 实 锁 结构 中 有 很 多 信息 ， 不 过 为 了 方便 理解 ， 我 们 现在 只 把 两 个 比较 重要 的 属性 拿 了 出 来 。 
。 trx 信息 : 表示 这 个 锁 结构 是 与 哪个 事务 关联 的 。 
9 1s_waiting : 表示 当前 事务 是 否 在 等 待 。 
如 图 22-2 所 示 ， 在 事务 T1 改动 这 条 记录 前 ， 吕 生 成 了 一 个 锁 结 构 与 该 记录 关联 。 因 为 之 
前 没有 别 的 事务 为 这 条 记录 加 锁 ， 所 以 IS_Waiting 属性 就 是 false。 我 们 把 这 个 场景 称 为 获取 锁 
成 功 ， 或 者 加 锁 成 功 ， 然 后 就 可 以 继续 执行 操作 了 ， 
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在 事务 Tl 提交 之 前 ， 另 一 个 事务 T2 也 想 对 该 记录 进行 改动 ， 那 么 T2 先 去 看 看 有 没有 锁 
结构 与 这 条 记录 关联 。 在 发 现 有 一 个 锁 结 构 与 之 关联 后 ，T2 也 生成 了 一 个 锁 结构 与 这 条 记录 
关联 ， 不 过 锁 结构 的 is_waiting 属性 值 为 tue， 表 示 需 要 等 待 。 我 们 把 这 个 场景 称 为 获取 锁 失 
败 ， 或 者 加 锁 失 败 ， 或 者 没有 成 功 地 获取 到 锁 ， 如 图 22-3 所 示 。 


并 


To 本 We ha Tp 
. » Er Re I ks pe A 
Py Py 413 [LA 拉 r r™ Pe 
nM oe ,一 ES 二 了 和 

' Hm ' .， vm /A 


用 





22.3 获取 锁 失败 
事务 Tl 提交 之 后 ， 就 会 把 它 生 成 的 锁 结构 释放 掉 ， 然 后 检测 一 下 还 有 没有 与 该 记录 关联 
的 锁 结构 。 结 果 发 现 了 事务 T2 还 在 等 待 获取 锁 ， 所 以 把 事务 T2 对 应 的 锁 结构 的 is waiting 属 


性 设置 为 false， 然 后 把 该 事务 对 应 的 线程 唤醒 ， 让 T2 继续 执行 。 此 时 事务 T2 就 算 获 取 到 锁 
了 ， 效 果 图 如 图 22-4 所 示 。 





图 22-4 事务 T2 获取 到 锁 


”我 们 总 结 一 下 后 续 内 容 中 可 能 会 用 到 的 几 种 说 法 ， 以 免 大 家 混淆 。 

e 获取 锁 成 功 ， 或 者 加 锁 成 功 : 在 内 存 中 生成 了 对 应 的 锁 结 构 ， 而 且 锁 结构 的 is_waiting 
属性 为 false， 也 就 是 事务 可 以 继续 执行 操作 。 当 然 并 不 是 所 有 的 加 锁 操作 都 需要 生成 
对 应 的 锁 结 构 ， 有 时候 会 有 一 种 “加 隐 式 锁 ” 的 说 法 。 隐 式 锁 并 不 会 生成 实际 的 锁 结 
构 ， 但 是 仍然 可 以 起 到 保护 记录 的 作用 。 我 们 把 为 记录 添加 隐 式 锁 的 情况 也 认为 是 获 
取 锁 成 功 ( 后 文 会 详细 啼 九 隐 式 锁 )。 

e 获取 锁 失 败 ， 或 者 加 锁 失 败 ， 或 者 没有 获取 到 锁 : 在 内 存 中 生成 了 对 应 的 锁 结构 ， 不 
过 锁 结构 的 is_waiting 属性 为 tue， 也 就 是 事务 需要 等 待 ， 不 可 以 继续 执行 操作 。 

e 不 加 锁 : 不 需要 在 内 存 中 生成 对 应 的 锁 结 构 ， 可 以 直接 执行 操作 。 不 包括 为 记录 加 隐 
式 锁 的 情况 。 


洽 : 二 这 里 只 是 对 锁 结 构 做 了 一 个 非常 简单 的 描述 ， 后 面 会 详细 啼 驴 锁 结 构 的 ， 少 安 
、 入 | 


: 
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<<.1.2 读 - 写 或 写 - 读 情况 


前 文 说 过 ， 在 读 - 写 或 写 - 情况 下 会 出 现 脏 读 、 不 可 重复 读 、 幻 读 的 现象 。 

SQL 92 标准 规定 ， 不 同 隔离 级 别 有 如 下 特点 : 

® 在 READ UNCOMMITTED 隔离 级 别 下 ， 脏 读 、 不 可 重复 读 、 幻 读 都 可 能 发 生 ， 

e 在 READ COMMITTED 隔离 级 别 下 ， 个 可 重复 读 、 幻 读 可 能 发 生 ， 脏 读 不 可 能 发 生 ; 

e 在 REPEATABLE READ 唤 离 级 别 下 ， 幻 读 可 能 发 生 ， 脏 读 和 不 可 重复 读 不 可 能 发 生 ; 

e 在 SERIALIZABLE 隔离 级 别 下 ， 上 述 现象 都 不 可 能 发 生 。 

不 过 ， 各 个 数据 库 厂商 对 SQL 标准 的 支持 可 能 不 一 样 。 MySQL 与 SQL 标准 不 同 的 一 点 
就 是 ，MySQL 在 REPEATABLE READ 隅 离 级 别 下 很 大 程度 地 避免 了 幻 读 现象 (很 大 程度 是 
个 喻 意思 ? 意思 是 在 某 些 情况 下 实 还 是 可 能 出 现 幻 读 现象 的 ， 我 们 稍 后 会 啼 叮 )。 

怎么 避免 脏 读 、 个 可 重复 读 、 幻 读 这 些 现象 昵 ? 其 实 有 两 种 可 选 的 解决 方案 。 

® 万 案 1: 读 操作 使 用 多 版 本 并 发 控制 (MVCC)， 写 操作 进行 加 锁 。 

MVCC 在 第 21 章 有 详细 的 描述 ， 束 是 通过 生成 一 个 ReadView， 然 后 通过 ReadView 找到 


从 合 条 件 的 记录 版 本 (历史 版 本 是 由 undo 日 志 构 建 的 )。 其 实 就 像 是 在 生成 ReadView 的 那个 
时 刻 ， 时 间 静 止 了 人 用 相机 的 了 个 碍 询 语句 只 能 读 到 在 生成 ReadView 之 前 已 
提交 事务 所 做 的 更 改 ， 在 生成 ReadView 之 前 未 提交 的 事务 或 者 之 后 才 开 启 的 事务 所 做 的 更 改 
则 是 看 不 到 的 。 per tel pris 读 记 录 的 历史 版 本 和 改动 记录 的 最 新 版 


本 这 两 者 并 不 冲突 ， 也 就 是 采用 | ii 时 ， 读 一 写 操作 并 不 冲突 。 






我 们 说 过 ， 普 通 的 CT 语句 在 READ COMMITTED 和 REPEATABLE READ 隔离 级 
加 下 会 使 用 到 MVCC 读 取 记 录 。 在 READ COMMITTED 隔离 级 别 下 ， 王 个 事务 在 执行 过 程 
-的 :中 每 次 执行 SELECT 操作 时 ， 都 会 生成 一 个 ReadView, ReadView 的 存在 本 身 就 保证 了 事务 
小 贴 士 ”不 可 以 读 取 到 未 提交 的 事务 所 做 的 更 改 ， 也 就 是 避免 了 胆 读 现象 。 在 REPEATABLE READ 
隔离 级 别 下 ， 一 个 事务 在 执行 过 程 中 只 有 第 一 次 执行 SELECT 操作 才 会 生成 一 个 ReadView， 

之 后 的 SELECT 操作 都 复 用 这 个 ReadView; 这样 也 就 避免 了 不 可 重复 读 和 幻 读 的 现象 


e 方案 2: 读 、 写 操作 都 采用 加 锁 的 方式 。 

如 果 我 们 的 一 些 业 务 场 景 不 许 读 取 记录 的 旧版 本 ， 而 是 每 次 都 必须 去 读 取 记 录 的 最 新 版 
本 。 比 如 在 银行 存款 的 事务 中 ， 我 们 需要 先 把 账户 的 余额 读 出 来 ， 然后 将 其 加 上 本 次 存款 的 数 
向 ， 最 后 再 写 到 数据 库 中 。 在 将 账户 余额 读 取 出 来 后 ， 或 不 想 让 别 的 事务 再 访问 该 余额 ， 直 到 
本 次 存款 事务 执行 完成 后 ， 其 他 务 才 可 以 访问 账户 的 余额。 这 样 在 读 取 记 录 的 时 候 也 就 需要 


对 其 进行 加 锁 操作 ， 这 也 就 意味 着 读 操作 和 写 操作 也 得 像 写 - 写 操作 那样 排队 执行 。 


三 脏 读 现象 的 产生 是 因 当前 事务 读 取 了 另 一 个 未 提交 事务 写 的 二 条 记录 ， 如 果 另 一 

、， ， “个 事务 在 写 记 录 的 时 候 就 这 条 记录 加 锁 , 那么 当前 事务 就 无 法 在 读 取 该 记录 时 再 获取 
全 : 到 锁 了 ， 所 以 也 就 不 会 出 脏 读 现象 了 。. 汪汪 

小 贴 十 。 “不 可 重复 读 现象 的 产 站 因为 当前 事务 先 读 取 一 条 记录 ， 另 外 一 个 事务 对 该 记录 进 

人 伟 取 记录 时 就 给 该 记录 加 锁 ， 那 么 另 一 个 事务 就 无 法 修改 该 记 


自 然 也 就 不 会 出 现 不 5 重复 读 现象 了 3 
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幻 读 现象 的 产生 是 因为 某 个 事务 读 取 了 符合 某 些 搜索 条 件 的 记录 ， 之 后 别 的 事务 又 
插入 了 符合 相同 搜索 条 件 的 新 记录 ， 导 致 该 事务 再 次 读 取 相 同 搜索 条 件 的 记录 时 ， 可 以 
读 到 别 的 事务 插入 的 新 记录 ， 这 些 新 插入 的 记录 就 称 为 幻影 记录 采用 如 锁 的 方式 避免 
幻 读 现象 就 有 那么 一 点 点 麻烦 ， 因 为 当前 事务 在 第 一 次 读 取 记 录 时 那些 幻影 记录 并 不 存 
在 ， 所 以 在 读 取 的 时 候 训 锁 就 有 点 趣 迷 了 一 因为 我 们 并 不 知道 给 谁 加 锁 ， 没关系 ， 这 
难 不 倒 设计 InnoDB 的 大 坡 的 ， 我 们 稍 后 揭晓 答案 ， 少 安 硝 踩 . 


很 明显 ， 如 果 采 用 MVCC 方式 ， 读 - 写 操作 彼此 并 不 冲突 ， 性 能 更 高 ; 如 果 采 用 加 锁 方 
式 ， 读 - 写 操作 彼此 需要 排队 执行 ， 从 而 影响 性 能 。 一 般 情况 下 ， 我 们 当然 愿意 采用 MVCC 
来 解决 读 - 写 操作 并 发 执行 的 问题 ， 但 是 在 某 些 特殊 的 业务 场景 中 ， 要 求 必须 采用 加 锁 的 方式 
执行 ， 那 也 是 没有 办 法 的 事 。 


22.1.3 一 致 性 读 


事务 利用 MVCC 进行 的 读 取 操作 称 为 一 致 性 读 〈Consistent Read)， 或 者 一 致 性 无 锁 读 (有 
的 资料 也 称 之 为 快照 读 )。 所 有 普通 的 SELECT 语句 (plain SELECT) 在 READ COMMITTED、 
REPEATABLE READ 隔离 级 别 下 都 算是 一 致 性 读 ， 比 如 : 


SELECT * FROM 七 ; 
SELECT * FROM tl INNER JOIN t2 ON tl.coll = t2.col2 


一 致 性 读 并 不 会 对 表 中 的 任何 记录 进行 加 锁 操 作 ， 其 他 事务 可 以 目 由 地 对 表 中 的 记录 进行 
改动 。 


22.1.4 ”锁定 读 


1. 共享 锁 和 独占 锁 
前 文 说 过 ， 并 发 事务 的 读 - 读 情 况 并 不 会 引起 什么 问题 ， 不 过 对 于 写 - 写 、 读 - 写 或 写 - 
读 这 些 情况 ， 可 能 会 引起 一 些 问 题 ， 需 要 使 用 MVCC 或 者 加 锁 的 方式 来 解决 它们 。 在 使 用 加 
锁 的 方式 来 解决 问题 时 ， 由 于 既 要 允许 读 - 读 情况 不 受 影响 ， 又 要 使 写 - 写 、 读 - 写 或 写 - 读 
情况 中 的 操作 相互 阻塞， 所 以 设计 MySQL 的 大 叔 给 锁 分 了 个 类 。 
e@ 共享 锁 (Shared Lock): 简称 S 锁 。 在 事务 要 读 取 一 条 记录 时 ， 需 要 先 获 取 该 记录 的 
S 锁 。 
e 独占 锁 (Exclusive Lock): 也 常 称 为 排他 锁 ， 简 称 X 锁 。 在 事务 要 改动 一 条 记录 时 ， 
需要 先 获取 该 记录 的 义 锁 。 
假如 事务 T1 首先 获取 了 一 条 记录 的 S 锁 ， 之 后 事务 T2 接着 也 要 访问 这 条 记录 : 
e 如 果 事 务 T2 想 要 再 获取 一 个 记录 的 S 锁 ， 那 么 事务 T2 也 会 获得 该 锁 ， 这 也 就 意味 着 
事务 TI 和 T2 在 该 记录 上 同时 持 有 S 锁 ; 
e ”如果 事务 T2 想 要 再 获取 一 个 记录 的 X 锁 ， 那 么 此 操作 会 被 阻塞 ， 直 到 事务 T1 提交 之 
后 将 S 锁 释放 掉 为 止 。 


如 果 事 务 T1 首先 获取 了 一 条 记录 的 X 锁 ， 那 么 之 后 无 论 事 务 T2 是 想 获取 该 记录 的 S 锁 
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还 是 X 锁 ， 都 会 被 阻塞 ， 直 到 事务 T1 提交 之 后 将 X 锁 释 放 掉 为 止 。 


所 以 S$ 锁 和 S 锁 是 兼容 的 , S 锁 和 X 锁 是 不 兼容 的 ，X 锁 和 X 锁 也 是 不 兼容 的 。 我 们 通 
过 表 22-1 来 表示 一 下 。 


表 22-1 S 锁 X 锁 的 兼容 关系 


rr EC ET 


X 锁 | 不 兼容 
s 镶 | 和 兼容 
2， 锁 定 读 的 语句 | 


我 们 前 面 说 ， 为 了 采用 加 锁 方式 避免 脏 读 、 不 可 重复 读 、 幻 读 这 些 现象 ， 在 读 取 一 条 记录 
时 需要 获取 该 记录 的 S 锁 。 其 实 这 是 不 严谨 的 ， 有 时候 我 们 想 在 读 取 记 录 时 就 获取 记录 的 义 锁 ， 
从 而 禁止 别 的 事务 读 写 该 记录 。 我 们 把 这 种 在 读 取 记 录 前 就 为 该 记录 加 锁 的 读 取 方 式 称 为 锁定 


读 (Locking Read)。 设计 MySQL 和 了 下 面 两 种 特殊 的 SELECT 语句 格式 来 支持 锁定 读 。 
e 对 读 取 的 记录 加 S 锁 : 














后 面 加 上 LOCK IN SHARE MODE。 如 果 当 前 事务 执行 了 
加 S 锁 ， 这 样 可 以 允许 别 的 事务 继续 获取 这 些 记录 的 S 锁 
(比如 ， 别 的 事务 也 使 用 SELECT ... LOCK IN SHARE MODE 语句 来 读 取 这 些 记 录 时 )， 但 是 
不 能 获取 这 些 记录 的 义 锁 (比如 使 用 SELECT ... FOR UPDATE 语句 来 读 取 这 些 记 录 ， 或 者 直 
接 改动 这 些 记 录 时 )。 如 果 别 的 事务 想 要 获取 这 些 记 录 的 X 锁 ， 那 么 它们 会 被 阻塞 ， 直 到 当前 
事务 提交 之 后 将 这 些 记录 上 的 S 锁 释 放 掉 为 止 。 

e 对 读 取 的 记录 加 和 X 锁 : 


该 语句 ， 那 么 它 会 为 读 取 到 的 记 


SELECT ... FOR UPDATE; 


也 就 是 在 普通 的 SELECT 语句 后 面 加 上 FOR UPDATE。 如 果 当 前 事务 执行 了 该 语句 ， 那 
么 它 会 为 读 取 到 的 记录 加 X 锁 ， 这 样 既 不 允许 别 的 事务 获取 这 些 记 录 的 S 锁 (比如 别 的 事务 
使 用 SELECT ... LOCK IN S MODE 语句 来 读 取 这 些 记 录 时 )， 也 不 允许 获取 这 些 记 录 的 
X 锁 (比如 说 使 用 SELECT ... FOR UPDATE 语句 来 读 取 这 些 记 录 ， 或 者 直接 改动 这 些 记 录 时 )。 
如 果 别 的 事务 想 要 获取 这 些 记 录 的 S 锁 或 者 义 锁 ， 那 么 它们 会 被 阻塞 ， 直 到 当前 事务 提交 之 
后 将 这 些 记 录 上 的 义 锁 释 放 掉 为 止 。 

关于 锁定 读 的 更 多 加 锁 细 节 ，| 我 们 稍 后 会 详细 踪 明 ， 少 安 毋 躁 。 


22.1.5 “ 写 操作 


平常 所 用 到 的 写 操作 无 非 是 DELETE、UPDATITE、INSERT 这 3 种 。 
® DELETE : 对 一 条 记录 执行 DELETE 操作 的 过 程 其 实 是 先 在 B+ 树 中 定位 到 这 条 记录 
的 位 置 ， 然 后 获取 这 条 记录 的 X 锁 ， 最 后 再 执行 delete mark 操作 。 我 们 也 可 以 把 这 个 
“ 先 定位 待 删除 记录 在 B+ 树 中 的 位 置 ， 然 后 获取 这 条 记录 的 义 锁 的 过 程 ” 看 成 是 一 个 
| I 
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获取 X 锁 的 锁定 读 。 
@ UPDATE : 在 对 一 条 记录 进行 UPDATE 操作 时 分 为 下 面 3 种 情况 。 
咽 ”如 果 未 修改 该 记录 的 键 值 并 且 被 更 新 的 列 所 占用 的 存储 空间 在 修改 前 后 未 发 生变 
化 ， 则 先 在 B+ 树 中 定位 到 这 条 记录 的 位 置 ， 然 后 再 获取 记录 的 X 锁 ， 最 后 在 原 记 
录 的 位 置 进行 修改 操作 。 其 实 也 可 以 把 这 个 “ 先 定位 待 修改 记录 在 B+ 树 中 的 位 置 ， 
然后 再 获取 记录 的 和 X 锁 的 过 程 ” 看 成 是 一 个 获取 和 镇 的 锁定 读 。 
s ”如 果 未 修改 该 记录 的 键 值 并 且 至 少 有 一 个 被 更 新 的 列 占 用 的 存储 空间 在 修改 前 后 发 生变 
化 ， 则 先 在 B+ 树 中 定位 到 这 条 记录 的 位 置 ， 然 后 获取 记录 的 X 锁 ， 之 后 将 该 记录 彻底 
删除 掉 〈 就 是 把 记录 彻底 移入 垃圾 链表 )， 最 后 再 插入 一 条 新 记录 。 可 以 把 这 个 “ 先 定 
位 待 修改 记录 在 B+ 树 中 的 位 置 ， 然 后 再 获取 记录 的 入 锁 的 过 程 ” 看 成 是 一 个 获取 和 X 
锁 的 锁定 读 ， 与 被 彻底 删除 的 记录 关联 的 锁 也 会 被 转移 到 这 条 新 插入 的 记录 上 来 。 
@ ”如果 修 改 了 该 记录 的 键 值 ， 则 相当 于 在 原 记录 上 执行 DELETE 操作 之 后 再 来 一 次 
INSERT 操作 ， 加 锁 操 作 就 需要 按照 DELETE 和 INSERT 的 规则 进行 了 。 
e INSERT : 一 般 情况 下 ， 新 插入 的 一 条 记录 受 隐 式 锁 保护 ， 不 需要 在 内 存 中 为 其 生成 
对 应 的 锁 结 构 。 更 多 关于 隐 式 锁 的 细节 我 们 稍 后 再 看 。 


-9. 当然 ， 上 天 条 INSERT ta 4 RR 


只 二 


区 Ce te “ 


在 一 个 事务 中 加 的 锁 一 般 在 事务 提交 或 中 止 时 才 会 释放 。 当 然 也 有 特殊 情况 ， 遇 到 时 我 们 
会 强调 的 。 


22.2 ”多 粒度 锁 


前 面 提 到 的 锁 都 是 针对 记录 的 ， 可 以 将 其 称 为 行 级 锁 或 者 行 锁 。 对 一 条 记录 加 行 锁 ， 影 响 
的 也 只 是 这 条 记录 而 已 ， 我 们 就 说 这 个 行 锁 的 粒度 比较 细 。 其 实 一 个 事务 也 可 以 在 表 级 别 进 生 
加 锁 ， 上 自然 就 将 其 称 为 表 级 锁 或 者 表 锁 。 对 一 个 表 加 锁 ， 会 影响 表 中 的 所 有 记录 ， 我 们 就 说 这 
个 锁 的 粒度 比较 粗 。 给 表 加 的 锁 也 可 以 分 为 共享 锁 (S 锁 ) 和 独占 锁 (X 锁 )。 
e 给 表 加 S 锁 
如 果 一 个 事务 给 表 加 了 S 锁 ， 那 么 : 
ma” 别 的 事务 可 以 继续 获得 该 表 的 S 锁 ; 
@ 别 的 事务 可 以 继续 获得 该 表 中 某 些 记录 的 S 锁 ; 
em 别 的 事务 不 可 以 继续 获得 该 表 的 X 锁 ; 
se 别 的 事务 不 可 以 继续 获得 该 表 中 某 些 记录 的 X 锁 。 
e 给 表 加 XX 锁 
如 有 果 一 个 事务 给 表 加 了 X 锁 (意味 着 该 事务 要 独占 这 个 表 )， 那 么 
se 别 的 事务 不 可 以 继续 获得 该 表 的 S 锁 ; 
m 别 的 事务 不 可 以 继续 获得 该 表 中 某 些 记录 的 S 锁 ; 
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= 别 的 事务 不 可 以 继续 晓得 该 表 的 义 钙 
m 别 的 事务 不 可 以 继续 获得 该 表 中 某 些 记录 的 X 锁 。 
二 面 的 文字 看 着 有 点 嗓 嗪 。 为 了 更 好 地 理解 这 个 表 级 别 的 S 锁 和 义 锁 ， 我 们 以 大 学 教学 
楼 中 的 教室 为 例 来 分 析 加 锁 的 情况 。 

。 教室 一 般 都 是 公用 的 ， 我 们 可 以 随便 选 一 间 教 室 进去 上 自习 。 当 然 ， 教 室 不 是 自家 的 ， 
一 同 教室 可 以 容纳 很 多 同学 同时 上 自习 。 每 当 一 个 同学 进去 上 自习 ， 就 相当 于 在 教室 
| 口 挂 了 一 把 S 锁 ， 如 果 很 多 同学 都 进去 上 自习 ， 就 相当 于 教室 门口 挂 了 很 多 把 S 锁 
(类 似 行 级 别 的 S 锁 )。 

。 有 时 教室 会 进行 检修 ， 比 如 换 地 板 、 换 天 花 板 、 换 灯 管 啥 的 ， 这 些 维修 项 目 并 不 能 同 
时 开展 。 如 果 教室 针对 某 个 项 目 进行 检修 ， 就 不 允许 同学 来 上 自习 ， 也 不 允许 其 他 维 
修 项 目 进行 ， 此 时 相当 于 教室 门口 挂 了 一 把 X 锁 (类 似 行 级 别 的 义 锁 )。 

上 边 提 到 的 这 两 种 锁 都 是 针对 教室 而 言 的 ， 不 过 我 们 有 时 会 有 一 些 特殊 的 需求 。 

。 有 上 级 领导 要 来 参观 教学 楼 的 环境 。 校 领导 不 想 影响 同学 们 上 自习 ， 但 是 此 时 不 能 有 
教室 处 于 维修 状态 ， 于 是 可 以 在 教学 楼 门口 放置 一 把 S 锁 (类 似 表 级 别 的 S 锁 )。 此 时 : 
”来 上 自习 的 学 生 看 到 教学 楼 门口 有 S 锁 ， 可 以 继续 进入 教学 楼 上 自习 ， 
修理 工 看 到 教学 楼 门口 有 S 锁 ， 则 先 在 教学 楼 门口 等 着 ， 哈 时 候 上 级 领导 走 了 ， 

把 教学 楼 的 S 锁 撤 掉 后 ， 再 进入 教学 楼 维修 。 

。 学 校 要 占用 教学 楼 进行 考试 。 此 时 不 允许 教学 楼 中 有 正在 上 自习 的 教室 ， 也 不 允许 对 
教室 进行 维修 ， 于 是 可 以 在 教学 楼 门口 放置 一 把 X 锁 〈 类 似 表 级 别 的 X 锁 )。 此 时 ， 
来 上 自习 的 学 生 看 到 教学 楼 门口 有 X 锁 ， 则 需要 在 教学 楼 门口 等 着 ， 哈 时 候 考试 

结束 ， 把 教学 楼 的 X 锁 撤 掉 后 ， 再 进入 教学 楼 上 自习 。 
修理 工 看 到 教学 楼 门 襄 有 锁 ， 则 先 在 教学 楼 门口 等 着 ， 哈 时 候 考试 结束 ， 把 教 
学 楼 的 X 锁 撤 掉 后 ， 青 进入 教学 楼 维修 。 

pee | 

。 如 果 想 对 教学 楼 整体 上 S 锁 ， 首 先 需要 确保 教学 楼 中 没有 正在 维修 的 教室 ， 如 果 有 正 
在 维修 的 教室 ， 则 需要 等 到 维修 结束 才 可 以 对 教学 楼 整体 上 S 锁 ， 

。 如 果 想 对 教学 楼 整体 上 X 锁 ， 首 先 需要 确保 教学 楼 中 没有 上 自习 的 教室 以 及 正在 维修 
的 教室 ， 如 果 有 上 自习 的 教室 或 者 正在 维修 的 教室 ， 则 需要 等 到 上 自习 的 所 有 同学 都 
上 完 自习 离开 ， 以 及 维修 二 维修 完 教室 离开 后 才 可 以 对 教学 楼 整体 上 义 锁 。 : 

我 们 在 对 教学 楼 整体 上 锁 〈 表 锁 ) 时 ， 怎 么 知道 教学 楼 中 有 没有 教室 已 经 被 上 锁 行 锁 ) 

了 休 交 检查“ 间 者 门口 有 没有 上 上 镇? 这 地 也 太 慢 了 吧 1 过 历 是 不 可 能 的， 这 
子 都 不 可 能 遍历 的 。 于 是 设计 InnoDB 的 大 叔 提 出 了 一 种 称 为 意向 锁 《Intention Lock) 的 东西 。 

9 意 问 共享 锁 (Intention Shaled Lock): 简称 IS 锁 ， 当 事务 准备 在 某 条 记录 上 加 S 锁 时 ， 
需要 先 在 表 级 别 加 一 个 IS 锁 。 

e 意 门 独占 锁 (Intention Exclusive Lock); 简称 IX 锁 ， 当 事务 准备 在 某 条 记录 上 加 义 锁 
时 ， 需 要 先 在 表 级 别 加 一 个 IX 锁 。 

视角 回 到 教学 楼 和 教室 上 来 

。 如 果 有 学 生 到 教室 中 上 自习 ， 那 么 他 先 在 整 栋 教学 楼 门口 放 一 把 IS 锁 ( 表 级 锁 )， 然 





时 要 We 
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后 再 到 教室 门口 放 一 把 S 锁 〈 行 锁 ); 

e 如 果 有 维修 工 到 教室 进行 维修 ， 那 么 他 先 在 整 栋 教学 楼 门口 放 一 把 IX 锁 ( 表 级 锁 )， 
然后 再 到 教室 门口 放 一 把 X 锁 〈 行 锁 )。 

之 后 : 

e 如 果 有 上 级 领导 要 参观 教学 楼 ， 也 就 是 想 在 教学 楼 门口 前 放 S 锁 〈 表 锁 ) 时 ， 首 先 要 
看 一 下 教学 楼 门口 有 没有 IX 锁 ; 如 果 有 ， 则 意味 着 有 教室 在 维修 ， 需 要 等 到 维修 结束 
把 IX 锁 撤 掉 后 ， 才 可 以 在 整 栋 教学 楼 上 加 S 锁 ; 

e 如果 有 考试 要 占用 教学 楼 ， 也 就 是 想 在 教学 楼 门口 前 放 XX 锁 ( 表 锁 ) 时 ， 首 先 要 看 一 
下 教学 楼 门口 有 没有 IS 锁 或 TX 锁 ; 如 果 有 ， 则 意味 着 有 教室 在 上 自习 或 者 在 维修 ， 
需要 等 到 学 生 们 上 完 自习 或 者 维修 结束 把 IS 锁 和 IX 锁 撤 掉 后 ， 才 可 以 在 整 栋 教学 楼 
上 加 X 义 锁 。 


,, .学生 在 教学 楼 门口 加 IS 锁 时 ， 是 不 关心 教学 楼 门口 是 否 有 IX 锁 的 ; 维修 工 在 教学 
-全 - 楼 门口 加 IX 锁 时 ， 是 不 关心 教学 楼 门口 是 否 有 IS 锁 或 者 其 他 IX 锁 的 :IS 锁 和 IX 锁 只 


小 贴 二 是 用 来 判断 当前 时 间 教学 楼 里 有 没有 被 点 用 的 教室， 也 就 时 只 有 在 对 才学 楼 加 S 镇 
X 义 锁 后 才 会 用 到 . De 


总 结 一 下 : IS 锁 、IX 锁 是 表 级 锁 ， 它 们 的 提出 仅仅 为 了 在 之 后 加 表 级 别 的 S$ 锁 和 XX 锁 时 
可 以 快速 判断 表 中 的 记录 是 否 被 上 锁 ， 以 避免 用 遍历 的 方式 来 查看 表 中 有 没有 上 锁 的 记录 ; 也 
就 是 说 其 实 IS 锁 和 IX 锁 是 兼容 的 ，IX 锁 和 IX 锁 是 兼容 的 。 

我 们 画 个 表 来 看 一 下 表 级 别 的 各 种 锁 的 兼容 性 《〈 见 表 22-2)。 


表 22-2 ” 表 级 别 的 锁 的 兼容 性 


x 人 
Er EC 


22.3 MySQL 中 的 行 锁 和 表 锁 
前 面 说 的 都 算是 理论 知识 ， 其 实 MySQL 支持 多 种 存储 引擎 ， 不 同 存储 引擎 对 锁 的 支持 也 是 
不 一 样 的 。 当 然 ， 我 们 还 是 重点 讨论 InnoDB 存储 引擎 中 的 锁 ， 其 他 的 存储 引擎 只 是 稍微 提 一 下 。 
22.3.1 其 他 存储 引擎 中 的 锁 


对 于 MyISAM、MEMORY、MERGE 这 些 存储 引擎 来 说 ， 它 们 只 支持 表 级 锁 ， 而 且 这 些 
存储 引擎 并 不 支持 事务 ， 所 以 当 我 们 为 使 用 这 些 存 储 引 擎 的 表 加 锁 时 ， 一 般 都 是 针对 当前 会 话 
来 说 的 。 





Te 
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比如 在 Session 1 中 对 一 个 表 执 行 SELECT 操作 ， 惑 相当 于 为 这 个 表 加 了 一 个 表 级 别 的 S 锁 。 
如 果 在 SELECT 操作 未 完成 时 ， 在 Session 2 中 对 这 个 表 执 行 UPDATE 操作 ， 相 当 于 要 获取 表 的 
X 锁 ， 此 操作 将 会 被 阻塞 。 直 到 Session 1 中 的 SELECT 操作 完成 ， 释 放 掉 表 级 别 的 S 锁 后 ， 在 
Session 2 中 对 这 个 表 执 行 UPDATE 操作 才能 继续 获取 义 锁 ， 然后 执行 具体 的 更 新 语句 。 


' MD 
1 | 


洲 “因为 使 用 MyISAM、MEMORY、MERGE 这 些 存储 引 学 国有 在 同一 时 划 只 多 许 一 


Not 
小 贴 士 “分 都 是 读 操作 或 者 单 用 户 的 情景 下 。 7 
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妨 外 ， 在 MyISAM 存储 引擎 中 有 一 个 称 为 并 发 插入 Concurrent Insert) 的 特性 ， 它 支持 


在 读 取 MyISAM 表 的 同时 插入 记录 ， 这 样 可 以 提升 插入 速度 。 关 于 并 发 插入 的 更 多 细节 ， 我 
们 就 不 噶 鹃 了 ， 大 家 可 以 参考 MySQL 文档 。 


22.3.2 InnoDB 存储 引擎 中 的 锁 


InnoDB 存储 引擎 既 支 持 表 级 锁 ， 也 支持 行 级 锁 。 表 级 锁 粒度 粗 ， 占 用 资源 较 少 。 不 \ 过 有 时 我 
们 仅仅 需要 锁 住 几 条 记录 ， 如 果 使 用 表 级 锁 ， 效果 上 相当 于 为 表 中 的 所 有 记录 都 加 锁 ， 所 以 性 能 
比较 差 。 行 级 锁 粒度 细 ， 可 以 实现 更 精准 的 并 发 控制 ， 但 是 占用 资源 较 多 。 下 边 我 们 详细 看 一 下 。 

1. InnoDB 中 的 表 级 锁 

e 表 级 别 的 S 锁 、X 锁 

在 对 某 个 表 执行 SELECT、INSERT、DELETE、UPDATE 语句 时 ， InnoDB 存储 引擎 是 不 
会 为 这 个 表 添 加 表 级 别 的 S 锁 或 者 义 锁 的 。 

娘 外 ， 在 对 某 个 表 执 行 一 些 诸如 ALTER TABLE、 DROP TABLE 的 DDL 语句 时 ， 其 他 事 
务 在 对 这 个 表 并 发 执行 诸如 SELECT、INSERT、DELETE、 UPDATE 等 语句 ， 会 发 生 阻塞 。 
同 理 ， 某 个 事务 在 对 某 个 表 执 行 SELECT、INSERT、DELETE、UPDATE 语句 时 ， 在 其 他 会 
话 中 对 这 个 表 执 行 DDL 语句 也 会 发 生 阻塞 。 这 个 过 程 其 实 是 通过 在 server 层 使 用 一 种 称 为 元 


数据 锁 (Metadata Lock，MDL) 的 东西 来 实现 的 ， 一 般 情况 下 也 不 会 使 用 InnoDB 存储 引擎 自 
己 提 供 的 表 级 别 的 S 锁 和 义 锁 。 






i ”在 第 i8 章 中 说 过 , ed pd 原因 是 DDL 语 
甩 、 与 的 执行 一 般 才 会 在 若 二 个 特殊 事务 中 完成 ， 在 开启 这 些 特 球 务 前 ， 需 要 将 当前 会 话 中 
修士 ”的 事务 提交 撞 。 另 外 ，MDI 锁 并 不 是 我 们 本 齐 要 讨论 的 内 容 ， 天 家 吉 以 自行 条 疗 六 档 。 


其 实 ， InnoDB 存储 引擎 提供 的 表 级 S 锁 或 者 义 锁 相当 “鸡肋 ”， 只 会 在 一 些 特殊 情况 下 ( 比 
如 在 系统 骨 溃 恢复 时 ) 用 到 。 不 过 我 们 还 是 可 以 手动 获取 一 下 ， 比 如 在 系统 变量 autocommit= 0、 
innodb table locks = 1 时 ， 要 手动 获取 InnoDB 存储 引擎 提供 的 表 t 的 S 锁 或 者 义 锁 ， 可 以 按 
照 下 面 这 样 来 写 语句 。 

® LOCK TABLES t READ : InnoDB 存储 引擎 会 对 表 t 加 表 级 别 的 S 锁 。 

9 LOCK TABLES t WRITE : InnoDB 存储 引擎 会 对 表 t 加 表 级 别 的 义 锁 。 

不 过 请 尽量 避免 在 使 用 InnoDB 存储 引擎 的 表 上 使 用 LOCK TABLES 这 样 的 手动 锁 表 语句 ， 
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细 粒 度 的 行 级 锁 ， 关 于 表 级 别 的 S 锁 和 XX 锁 大 家 了 解 一 下 就 轩 了 。 
e 表 级 别 的 IS 锁 、IX 锁 
当 对 使 用 InnoDB 存储 引擎 的 表 的 某 些 记录 加 S 锁 之 前 ， 需 要 先 在 表 级 别 加 一 个 JIS 锁 ; 
当 对 使 用 InnoDB 存储 引擎 的 表 的 某 些 记 录 加 X 锁 之 前 ， 需 要 先 在 表 级 别 加 一 个 IX 锁 。IS 锁 
和 IX 锁 的 使 命 只 是 为 了 后 续 在 加 表 级 别 的 S 锁 和 义 锁 时 ， 判 断 表 中 是 否 有 已 经 被 加 锁 的 记录 ， 
以 避免 用 遍历 的 方式 来 查看 表 中 有 没有 上 锁 的 记录 。 更 多 关于 IS 锁 和 IX 锁 的 解释 已 经 在 前 文 
都 只 四 过 了 ， 这 里 就 不 装 述 了 。 
e 表 级 别 的 AUTO-INC 锁 
在 使 用 MySQL 的 过 程 中 ， 我 们 可 以 为 表 的 某 个 列 添加 AUTO _INCREMENT 属性 ， 之 后 
在 插入 记录 时 ， 可 以 不 指定 该 列 的 值 ， 系 统 会 自动 为 它 赋予 递增 的 值 。 比 如 我 们 创建 一 个 表 : 
CREATE TABLE 七 ( 
id INT NOT NULL AUTO INCREMENT., 
C VARCHAR(100), 
PRIMARY KEY (id) 
) Engine=InnoDB CHARSET=utf8; 
由 于 这 个 表 的 id 字段 声明 了 AUTO INCREMENT， 也 就 意味 着 在 书写 插入 语句 时 不 需要 
为 其 赋值 。 比 如 下 面 这 样 : 


INSERT INTO t(c) VALUES('aa'), ('bb'); 
上 面 这 条 插入 语句 并 没有 为 id 列 显 式 赋值 ， 系 统 会 自动 为 它 赋予 递增 的 值 ， 效 果 如 下 : 


mysql> SELECT * FROM t; 


它们 并 不 会 提供 什么 额外 的 保护 ， 只 是 会 降低 并 发 能 力 而 已 。InnoDB 的 厉害 之 处 是 实现 了 更 


2 rows in set (0.00 sec) 


系统 自动 给 AUTO_INCREMENT 修饰 的 列 进行 递增 赋值 的 实现 方式 主要 有 下 面 两 个 。 
se 采用 AUTO-INC 锁 ， 也 就 是 在 执行 插入 语句 时 就 加 一 个 表 级 别 的 AUTO-INC 锁 ， 然 
后 为 每 条 待 插 入 记录 的 AUTO _INCREMENT 修饰 的 列 分 配 递增 的 值 。 在 该 语句 执行 
结束 后 ， 再 把 AUTO-INC 锁 释 放 掉 。 这 样 一 来 ， 一 个 事务 在 持 有 AUTO-INC 锁 的 过 程 
中 ， 其 他 事务 的 插入 语句 都 要 被 阻塞 ， 从 而 保证 一 个 语句 中 分 配 的 递增 值 是 连续 的 。 
如 果 我 们 的 插入 语句 在 执行 前 并 不 确定 具体 要 插入 多 少 条 记录 (无 法 预计 即将 插入 记录 的 
数量 )， 比 如 使 用 INSERT ... SELECT、REPLACE ... SELECT 或 者 LOAD DATA 这 种 插入 语句 ， 
一 般 是 使 用 AUTO-INC 锁 为 AUTO INCREMENT 修饰 的 列 生 成 对 应 的 值 。 


兮 : 党 要 注意 的 是 ， 这 仆 AUTO-INC 镇 的 作用 范围 只 是 单个 插入 语 避 | 在 插入 语句 执 
小 贴 十。 行 完成 后 ， 这 个 锁 就 被 释放 了 这 与 我 们 前 面 介绍 的 锁 在 事务 结 来 时 释放 是 不 一 样 的 ， 
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® 采用 一 个 轻 量 级 的 锁 ， 在 为 插入 语句 生成 AUTO_INCREMENT 修饰 的 列 的 值 时 获取 
这 个 轻 量 级 锁 ， 然 后 在 生成 本 次 插入 语句 需要 用 到 的 AUTO INCREMENT 修饰 的 列 
的 值 之 后 ， 就 把 该 轻 量 级 锁 释 放 掉 ， 而 不 需要 等 到 整个 插入 语句 执行 完 后 才 释 放 锁 。 
和 如果 我 们 的 插入 语句 在 执行 前 就 可 以 确定 具体 要 插入 多 少 条 记录 ， 比如 前 文 关 于 表 t 的 


VTA" 







| 例子 中 ， 在 语句 执行 前 就 可 以 确定 要 插入 2 条 记录 ， 那么 一 般 采 用 轻 量 级 锁 的 方式 对 AUTO 
INCREMENT 修饰 的 列 进行 赋值 。 这 种 方式 可 以 避免 锁定 表 ， 可 以 提升 插入 性 能 。 
设计 nnoDB 的 大 权 提 供 了 一 个 名 为 inodb_ SG 变量 ， 用 来 
控制 到 底 使 用 上 述 两 和 哪 一 种 来 为 AU 
小 贴 士 上， 同 种 方式 混 着 来 《也 就 是 在 插入 记录 # 时 a 
AUTO-INC 锁 ). 不 过 ， 当 i , 
| 中 的 插入 语句 为 AUTO_INCRE 


E 场景 中 是 不 安全 的 。 


2. InnoDB 中 的 行 级 锁 


告诉 大 家 一 个 不 好 的 消息 : 本 章 前 文 讲 的 内 容 都 是 铺垫 ， 本 章 真正 的 重点 才刚 刚 开 始 。 

行 级 锁 ， 也 称 为 记录 锁 ， 顾 名 思 义 就 是 在 记录 上 加 的 锁 。 不 过 设计 InnoDB 的 大 叔 很 有 才 ， 
一 个 行 锁 玩 出 了 多 种 “花样 >， 也 就 是 把 行 锁 分 成 了 各 种 类 型 。 换 句 话说 ， 即使 对 同一 条 记录 
加 行 锁 ， 如 果 记 录 的 类 型 不 同 ， 起 到 的 功效 也 是 不 同 的 。 


为 了 故事 的 顺利 发 展 ， 我 们 还 是 先 将 之 前 因 轨 MVCC 时 用 到 的 表 抄 一 遍 : 
CREATE TABLE hero ( 
number INT, 


name VARCHAR (100) ， 
country varchar (100), 
PRIMARY KEY (number) 

) Engine=InnoDB CHARSET=utf8; 


我 们 主要 是 想 用 这 个 表 存 储 三 国 时 期 的 英雄 信物。 向 这 个 表 中 插入 几 条 记录 : 


INSERT INTO hero VALUES 
< (1， "1 刘备 '， ' 蜀 ') ， 
(3，'z 诸 葛 亮 '，' 蜀 ')， 
(8，'c 曹 操 '，' 魏 ')， 
(15，'x 苟 或 ' ，' 魏 ')， 


(20，'s 孙 权 '，， 吴 ") ; 
现在 表 中 的 数据 就 是 这 样 的 : 
mysql> SELECT * FROM hero; 
+ 一 一 一 一 一 +~ 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 上 
| | number | name | country | 
CT 了 
| 1 | 1 刘备 | 多 | 
| 3 | z 诸 葛 亮 | 蜀 | 
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5 rows in set (0.01 sec) 


”不 是 说 好 存储 三 国 时 期 的 英雄 信物 么 ? 为 哈 要 在 4 刘备 ”“ 章 操 ”“ 和 孙权 ”前 边 加 
了 c、s 这 几 个 字母 咱 ? 这 个 主要 是 因为 我 们 采用 的 是 utf8 字符 集 ， 该 字符 集 并 没 
有 按照 汉语 拼音 进行 排序 的 比较 规则 . 也 就 是 说 “刘备 ” 4 曹操 ”“ 和 孙权” 这 几 个 字符 
囊 的 大 小 并 不 是 按照 它们 的 汉语 拼音 进行 排序 的 . :为 了 避免 大 家 发 惜 ， 所 以 在 汉字 前 
ed i ed 
: 本 全 人 Se js 4 es: 

另外 ， 人 者 拒 各 条 记 末 的 number 天 的 但 扫 得 分 本 会 有 到 少 安 
民品 。 SAT 


hero 表 中 的 聚 艇 索引 的 示意 图 如 图 22-5 所 示 。 


PF BW/ “WES SM ve oS ov DT | 
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图 22-5 ” 聚 簇 索引 示意 图 


当然 ， 我 们 把 B+ 树 的 索引 结构 进行 了 超级 简化 ， 只 把 聚 簇 索引 叶子 节点 中 的 记录 给 拿 了 
出 来 ， 目 的 是 想 强 调 聚 簇 索 引 中 的 记录 是 按照 主键 大 小 排序 的 。 这 里 还 省 略 掉 了 聚 簇 索 引 中 的 
隐藏 列 ， 大 家 心里 明白 就 好 〈 不 理解 索引 结构 的 读者 ， 可 以 返回 头 去 看 第 6 章 )。 

现在 准备 工作 做 完了 ， 下 面 来 看 看 都 有 哪些 常用 的 行 级 锁 类 型 。 

@ Record Lock 

前 面 提 到 的 记录 锁 就 是 这 种 类 型 ， 也 就 是 仅仅 把 一 条 记录 锁 上 。 我 决定 给 这 种 类 型 的 锁 起 
一 个 比较 “不 正经 ”的 名 字 : 正经 记录 锁 〈 请 允许 我 皮 一 下 ， 实 在 不 知道 该 叫 啥 名 好 )。 这 种 
锁 类 型 的 官方 名 称 为 LOCK REC NOT_ GAP。 比如 我 们 为 number 值 为 8 的 那 条 记录 加 一 个 正 
经 记录 锁 ， 示 意图 如 图 22-6 所 示 。 


聚焦 索引 示意 图 : 


number 列 |: 





22-6 ”为 number 值 为 8 的 记录 加 正经 记录 锁 
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正经 记录 锁 是 有 S 锁 和 义 锁 之 分 的 ， 我 们 分 别称 为 $ 型 正经 记录 锁 和 葡 型 正经 记录 锁 ( 听 起 
来 有 点 怪 怪 的 )。 当 一 个 事务 获取 了 一 条 记录 的 S 型 正经 记录 锁 后 ， 其 他 事务 也 可 以 继续 获取 该 记录 
的 S 型 正经 记录 锁 ， 但 不 可 以 继续 获取 和 型 正经 记录 锁 。 当 一 个 事务 获取 了 一 条 记录 的 X 型 正经 记 
系 锁 后 ， 其 他 事务 既 不 可 以 继续 获取 该 记录 的 S 型 正经 记录 锁 ， 也 不 可 以 继续 获取 义 型 正经 记录 锁 。 
@ GapLock 
前 面 讲 到 ，MySQL 在 REPEATABLE READ 隔离 级 别 下 是 可 以 在 很 大 程度 上 解决 幻 读 现 
象 的 。 解 决 方案 有 两 种 ， 使 用 MVCC 方案 解决 ， 使 用 加 锁 方案 解决 。 但 是 在 使 用 加 锁 方案 解 
决 时 有 个 大 问题 ， 就 是 事务 在 第 一 次 执行 读 取 操作 时 ， 那 些 幻影 记录 尚 不 存在 ， 我 们 无 法 给 
这 些 约 影 记录 加 上 正经 记录 锁 。 不 过 这 难 不 倒 设计 InnoDB 的 大 叔 ， 他 们 提出 了 一 种 称 为 Gap 
Lock 的 锁 。 这 种 锁 类 型 的 官方 名 称 为 LOCK GAP， 也 可 以 简称 为 gap 锁 。 比 如 我 们 为 number 
全 为 8 的 那 条 记录 加 一 个 gap 锁 ， 示 意图 如 图 22-7 所 示 。 


聚 乒 索引 示意 图 ; 
number 询 | : 


name 列 | : 





22-7 为 number 值 为 8 的 记录 加 一 个 gap 锁 


在 图 22-7 中 ， 为 number 值 为 8 的 记录 加 了 gap 锁 ， 这 意味 着 不 允许 别 的 事务 在 number 
值 为 8 的 记录 前 面 的 间隙 插入 新 记录 ， 其 实 就 是 number 列 的 值 在 区 间 (3, 8) 的 新 记录 是 不 允 
许 立 即 插入 的 。 比 如 有 另外 一 个 事务 想 插入 一 条 number 值 为 4 的 新 记录 ， 首 先 要 定位 到 该 条 
新 记录 的 下 一 条 记录 ， 也 就 是 number 值 为 8 的 记录 ， 而 这 条 记录 上 又 有 一 个 gap 锁 ， 所 以 就 
会 阻塞 插入 操作 ; 直到 拥有 这 个 gap 锁 的 事务 提交 了 之 后 将 该 gap 锁 释放 掉 ， 其 他 事务 才 可 以 
插入 number 列 的 值 在 区 间 (3, 8) 中 的 新 记录 。 

这 个 gap 锁 的 提出 仅仅 是 为 了 防止 插入 幻影 记录 而 提出 的 。 虽然 gap 锁 有 共享 gap 锁 和 独 
占 gap 锁 这 样 的 说 法 ， 但 是 它们 起 到 的 作用 都 是 相同 的 。 而 且 如 果 对 一 条 记录 加 了 gap 锁 〈 无 
论 是 共享 gap 锁 还 是 独占 gap 锁 )， 并 不 会 限制 其 他 事务 对 这 条 记录 加 正经 记录 锁 或 者 继续 加 
gap 锁 。 再 强调 一 遍 ，gap 锁 的 作用 仅仅 是 为 了 防止 插入 幻影 记录 而 已 。 

个 知道 大 家 是 否 发 现 了 一 个 问题 : 给 一 条 记录 加 gap 锁 只 是 不 允许 其 他 事务 向 这 条 记录 前 
面 的 间 隐 插入 新 记录 ; 那 对 于 最 后 一 条 记录 之 后 的 间隙 ， 也 就 是 hero 表 中 number 值 为 20 的 
记录 之 后 的 间隙 该 咋 办 呢 ? 也 就 是 说 ， 给 哪 条 记录 加 gap 锁 才 能 阻止 其 他 事务 插入 number 值 
企 区 间 (20, + % ) 的 新 记录 呢 ? 这 时 候 应 该 想起 我 们 在 前 面 踪 趾 数据 页 时 介绍 的 两 条 伪 记 录 了 。 

Infimum 记录 : 表示 该 页 面 中 最 小 的 记录 。 
外 ”Supremum 记录 : 表示 该 页 面 中 最 大 的 记录 。 
为 了 阻止 其 他 事务 插入 number 值 在 区 间 (20, +  ) 的 新 记录 ， 我 们 可 以 给 索引 中 最 后 一 
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条 记录 (也 就 是 number 值 为 20 的 那 条 记录 ) 所 在 页 面 的 Supremum 记录 加 上 一 个 gap 锁 ， 如 
图 22-8 所 示 。 


PP 3 TT | - i 


际 铬 索引 示意 图 : 





22-8 ”为 Supremum 记录 加 一 个 gap 锁 


这 样 就 可 以 阻止 其 他 事务 插入 number 值 在 区 间 (20, + = ) 的 新 记录 。 为 了 方便 理解 ， 之 
后 的 索引 示意 图 中 都 会 把 这 个 Supremum 记录 画 出 来 。 

@ Next-Key Lock 

有 时 候 ， 我 们 既 想 锁 住 某 条 记录 ， 又 想 阻 止 其 他 事务 在 该 记录 前 面 的 间隙 插入 新 记录 。 设 
计 InnoDB 的 大 叔 为 此 提出 了 一 种 名 为 Next-Key Lock 的 锁 。 这 种 锁 类 型 的 官方 名 称 为 LOCK 
ORDINARY， 也 可 以 简称 为 next-key 锁 。 比 如 我 们 为 number 值 为 8 的 那 条 记录 加 一 个 next- 
key 锁 ， 示 意图 如 图 22-9 所 示 。 


聚 灸 索引 示意 图 : 





组 
图 22-9 ”为 number 值 为 8 的 记录 加 一 个 next-key 锁 


next-key 锁 的 本 质 就 是 一 个 正经 记录 锁 和 一 个 gap 锁 的 合体 。 它 既 能 保护 该 条 记录 ， 又 能 
阻止 别 的 事务 将 新 记录 插入 到 被 保护 记录 前 面 的 间隙 中 。 
@ Jnsert Intention Lock 


. a 


一 个 事务 在 插入 一 条 记录 时 ， 需 要 判断 插入 位 置 是 否 已 被 别 的 事务 加 了 gap 锁 (next-key 锁 
也 包含 gap 锁 ， 后 面 就 不 强调 了 )。 如 果 有 的 话 ， 插 入 操作 需要 等 待 ， 直 到 拥有 gap 锁 的 那个 事 
务 提交 为 止 。 但 是 设计 InnoDB 的 大 叔 规定 ， 事 务 在 等 待 时 也 需要 在 内 存 中 生成 一 个 锁 结 构 ， 表 
明 有 事务 想 在 某 个 间隙 中 插入 新 记录 ， 但 是 现在 处 于 等 待 状态 。 设 计 InnoDB 的 大 叔 把 这 种 类 型 
的 锁 命名 为 Insert Intention Lock， 这 种 锁 类 型 的 官方 名 称 为 LOCK_INSERT INTENTION， 也 可 
以 称 为 插入 意向 锁 。 





号 
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比如 我 们 为 number 值 为 8 的 那 条 记录 加 一 个 插入 意向 锁 ， 示意 图 如 图 22-10 所 示 。 


聚 灸 索引 示意 图 : 


number 列 | : 





图 22-10 为 number 值 为 8 的 记录 加 一 个 插入 意向 锁 


为 了 让 大 家 彻底 理解 插入 意向 锁 的 功能 ， 我 们 还 是 举 个 例子 然后 画 个 图 表示 一 下 。 
比如 现在 Tl 为 number 值 为 8 的 记录 加 了 一 个 gap 锁 ， 然 后 T2 和 了 T3 分 别 想 向 hero 表 中 插入 
number 值 分 别 为 4、5 的 两 条 记录 ， 现 在 为 number 值 为 8 的 记录 加 的 锁 的 示意 图 如 图 22-11 所 示 。 


锁 结 构 
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锁 结构 





.se 


图 22-11 number 值 为 8 的 记录 加 的 锁 的 示意 图 


、} 


:@: 我 们 在 锁 结 构 中 又 新 添 了 一 个 type 属性 ， 用 来 表明 该 锁 的 类 型 . 稍 后 会 详细 介绍 
小 贴 士 ”nnoDB 存储 引擎 中 的 一 个 锁 结构 到 底 长 什么 样 3 

从 图 22-11 可 以 看 到 ， 由 于 T1 持 有 gap 锁 ， 所 以 T2 和 T3 需要 生成 一 个 插入 意向 锁 的 锁 结 
构 并 且 处 于 等 待 状态 。 当 TI1 提交 后 会 把 它 获取 到 的 锁 都 释放 掉 ， 这 样 T2 和 T3 束 能 获取 到 对 应 
的 插入 意向 锁 了 (本 质 上 就 是 把 插入 意向 锁 对 应 锁 结构 的 is_waiting 属性 改 为 false)。T2 和 T3 
之 间 也 并 不 会 相互 阻塞 ， 它 们 可 以 同时 获取 到 number 值 为 8 的 插入 意向 锁 ， 然 后 执行 插入 操作 。 
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事实 上 插入 意向 锁 并 不 会 阻止 别 的 事务 继续 获取 该 记录 上 任何 类 型 的 锁 〈 插 入 意 癌 锁 束 是 这 人 么 
“鸡肋 ”)。 
e 隐 式 锁 
在 内 存 中 生成 锁 结构 并 且 维 护 它们 并 不 是 一 件 零 成 本 的 事情 ， 设 计 InnoDB 的 大 叔 出 于 勤 
俭 节 约 的 精神 ， 提 出 了 一 个 隐 式 锁 的 概念 。 比 如 一 般 情况 下 执行 INSERT 语句 是 不 需要 在 内 存 
中 生成 锁 结构 的 《当然 ， 如 果 即 将 插入 的 间隙 已 经 被 其 他 事务 加 了 gap 锁 ， 那 么 本 次 INSERT 
操作 会 阻塞 ， 并 且 当 前 事务 会 在 该 间隙 上 加 一 个 插入 意向 锁 )， 但 是 这 可 能 导致 一 些 问 题 。 
比方 说 一 个 事务 首先 插入 了 一 条 记录 〈 此 时 并 没有 与 该 记录 关联 的 锁 结 构 )， 然 后 另 一 个 事 
务 执行 如 下 操作 。 
m 立即 使 用 SELECT ... LOCK IN SHARE MODE 语句 读 取 这 条 记录 (也 就 是 要 获取 
这 条 记录 的 S 锁 )， 或 者 使 用 SELECT ... FOR UPDATE 语句 读 取 这 条 记录 (也 就 
是 要 获取 这 条 记录 的 义 锁 )， 该 咋 办 ? 
如 果 人 允许 这 种 情况 的 发 生 ， 那 么 可 能 出 现 脏 读 现象 。 
@ 立即 修改 这 条 记录 (也 就 是 要 获取 这 条 记录 的 和 X 锁 )， 该 咋 办 ? 
如 果 人 允许 这 种 情况 的 发 生 ， 那 么 可 能 出 现 脏 写 现象 。 
这 时 ， 我 们 前 面 啼 嘱 了 很 多 遍 的 事务 id 又 要 起 作用 了 。 我 们 把 聚 簇 索引 和 二 级 索引 中 的 
记录 分 开 看 一 下 。 
m 情景 1， 对 于 聚 艇 索引 记录 来 说 ， 有 一 个 trx_id 隐藏 列 ， 该 隐藏 列 记录 着 最 后 改动 
该 记录 的 事务 的 事务 id。 在 当前 事务 中 新 插入 一 条 聚 簇 索引 记录 后 ， 该 记录 的 trx_ 
id 隐藏 列 代表 的 就 是 当前 事务 的 事务 id。 如果 其 他 事务 此 时 想 对 该 记录 添加 S 锁 
或 者 X 锁 ， 首 先 会 看 一 下 该 记录 的 trx id 隐藏 列 代 表 的 事务 是 否 是 当前 的 活跃 事 
务 。 如 果 不 是 的 话 就 可 以 正常 读 取 ; 如 果 是 的 话 ， 那 么 就 帮助 当前 事务 创建 一 个 X 
锁 的 锁 结构 ， 该 锁 结构 的 is_waiting 属性 为 false ; 然后 为 自己 也 创建 一 个 锁 结 构 ， 
该 锁 结构 的 is_waiting 属性 为 true， 之 后 自己 进入 等 待 状态 。 
”情景 2: 对 于 二 级 索引 记录 来 说 ， 本 身 并 没有 trx_id 隐藏 列 ， 但 是 在 二 级 索引 页 面 
的 Page Header 部 分 有 一 个 PAGE MAX TRX ID 属性， 该 属性 代表 对 该 页 面 做 改 
动 的 最 大 的 事务 id。 如 果 PAGE MAX TRX ID 属性 值 小 于 当前 最 小 的 活跃 事务 
id， 那 就 说 明 对 该 页 面 做 修改 的 事务 都 已 经 提交 了 ， 否 则 就 需要 在 页 面 中 定位 到 对 
应 的 二 级 索引 记录 ， 然 后 通过 回 表 操作 找到 它 对 应 的 聚 簇 索 引 记 录 ， 然 后 再 重复 
情景 1 的 做 法 。 
通过 上 文 得 知 ， 一 个 事务 对 新 插入 的 记录 可 以 不 显 式 地 加 锁 (生成 一 个 锁 结构 )， 但 是 由 
于 事务 id 这 个 “厉害 角色 ”的 存在 ， 相 当 于 加 了 一 个 隐 式 锁 。 别 的 事务 在 对 这 条 记录 加 $S 锁 
或 者 X 锁 时 ， 由 于 隐 式 锁 的 存在 ， 会 先 帮 助 当前 事务 生成 一 个 锁 结 构 ， 然 后 自己 再 生成 一 个 
锁 结 构 ， 最 后 进入 等 待 状态 。 
通过 上 面 的 描述 可 以 看 出 ， 隐 式 锁 起 到 了 延迟 生成 锁 结构 的 用 处 。 如 果 别 的 事务 在 执行 过 | 





程 中 不 需要 获取 与 该 隐 式 锁 相 神 突 的 锁 ， 就 可 以 避免 在 内 存 中 生成 锁 结 构 。 这 只 是 锁 在 实现 上 
的 一 个 “投机 取 巧 ”的 方案 ， 对 用 户 来 说 是 透明 的 。 也 就 是 说 ， 无 论 使 用 隐 式 锁 保护 记录 ， 还 
是 通过 在 内 存 中 显 式 生成 锁 结构 来 保护 记录 ， 起 到 的 作用 是 一 样 的 。 
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洽 : 除了 插入 意向 锁 ， 在 二 此 特殊 袁 


况 下 INSERT 语句 还 会 在 内 存 中 创建 一 些 锁 结 构 . 


<2.3.3 InnoDB 锁 的 内 存 结构 


有 前文 说 过 ， 对 一 条 记录 加 锁 的 本 质 就 是 在 内 存 中 创 
如 么 ， 一 个 事务 对 多 条 记录 加 锁 时 ， 征 不 是 就 要 创建 
这 个 语句 : 


建 一 个 锁 结构 与 之 关联 ( 隐 式 锁 除 外 )。 
多 个 锁 结构 呢 ? 比如 事务 T1 要 执行 下 面 


# 事务 T1 
SELECT * FROM hero LOCK IN SHARE MODE; 


代 显 然 ， 这 条 语句 需要 为 hero 表 中 的 所 有 记录 进行 加 锁 。 那么， 是 不 是 需要 为 每 条 记录 
和 万 一 个 锁 结构 呢 ? 其 实 理论 上 创建 多 个 锁 结 构 没有 问题 ， 反 而 更 容易 理解 ， 但 是 谁 知道 人 
“个 事务 中 想 对 多 少 记录 加 锁 呢 。 如 果 一 个 事务 要 获取 10,000 条 记录 的 锁 ， 要 生成 10 000 
这样 的 结构 就 太 亏 了 吧 ! 所 以 设计 InnoDB 的 大 叔 本 着 勤俭 节约 的 美德 ， 决 定 在 对 不 同 记录 
加 镇 时 ， 如 果 符 合 下 面 这 些 条 件 ， 这 些 记录 的 锁 就 可 以 放 到 一 个 锁 结构 中 

® 在 同一 个 事务 中 进行 加 锁 操 作 ， 

。 被 加 锁 的 记录 在 同一 个 页 面 中 ; 

e 加 锁 的 类 型 是 一 样 的 ; 

e 等 待 状态 是 一 样 的 。 


当然 ， 这 么 “ 空 口 白 牙 ” 地 说 有 点 儿 抽 象 ， 我 们 还 是 画 个 图 来 看 看 InnoDB 存储 引擎 中 的 
锁 结 构 〈 见 图 22-12 )。 


表 锁 特有 结构 : 









图 22-12 ”InnoDB 存储 引擎 事务 锁 结 构 


我 们 来 看 看 这 个 结构 中 的 各 种 信息 都 是 干 嘛 的 。 


® 锁 所 在 的 事务 信息 : 无 论 是 表 级 锁 还 是 行 级 锁 ， 一 个 锁 属 于 一 个 事务 ， 这 里 记载 着 该 
锁 对 应 的 事务 信息 。 
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.4。 ”实际 上 ， 这 个 “ 锁 所 在 的 事务 信息 ”在 内 存 结构 中 只 是 一 个 指针 ， 所 以 不 会 占用 
全、 多 大 内 存 空间 - 通过 指针 可 以 找到 内 在下 关于 该 事务 的 更 多 信息 ， 雍和 这 是 什么 : 
小 贴 士 。 直面 介绍 的 “索引 信息 ”其 实 也 是 一 个 指针 。 


e 索引 信息 : 对 于 行 级 锁 来 说 ， 需 要 记录 一 下 加 锁 的 记录 属于 哪个 索引 。 

e 表 锁 / 行 锁 信息 : 表 级 锁 结构 和 行 级 锁 结构 在 这 个 位 置 的 内 容 是 不 同 的 ， 具 体 表 现 为 
表 级 锁 记 载 着 这 是 对 哪个 表 加 的 锁 ， 还 有 其 他 的 一 些 信息 ; 而 行 级 锁 记 载 了 下 面 3 个 
重要 的 信息 。 

@ Space ID : 记录 所 在 的 表 和 空间。 

@ Page Number : 记录 所 在 的 页 号 。 

a n_bits: 对 于 行 级 锁 来 说 ， 一 条 记录 对 应 着 一 个 比特 ; 一 个 页 面 中 包含 很 多 条 记录 ， 
用 不 同 的 比特 来 区 分 到 底 是 为 哪 一 条 记录 加 了 锁 。 为 此 在 行 级 锁 结 构 的 末尾 放置 了 
一 堆 比 特 ， 这 个 n_bits 属性 表示 使 用 了 多 少 比特 。 


: 乓 : 并 不 是 该 页 面 中 有 多 少 0 属性 的 值 就 是 多 少 、 为 了 之 后 在 页 面 中 插入 新 
记录 时 也 不 至 于 重新 分 配 锁 结 构 ， n_bits 的 值 一 般 都 比 页 面 中 的 记录 条 数 多 一 些 - 


e@e type mode : 这 是 一 个 32 比特 的 数 ， 被 分 成 lock mode、lock type 和 rec lock type 这 
3 个 部 分 ， 如 图 22-13 所 示 。 
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图 22-13 type mode 的 各 个 二 进 制 位 的 作用 


lock mode 〈 锁 模式 ) 占用 低 4 比特 ， 可 选 的 值 如 下 所 示 。 
LOCK JIS 十 进 制 的 0): 表示 共享 意向 锁 ， 也 就 是 IS 锁 。 
LOCK_IX (十 进 制 的 1): 表示 独占 意向 锁 ， 也 就 是 IIX 锁 。 
LOCK_S 【十进制 的 2): 表示 共享 锁 ， 也 就 是 S 锁 。 
LOCK X (十 进 制 的 3): 表示 独占 锁 ， 也 就 是 X 锁 。 
LOCK_AUTO_INC (十 进 制 的 4): 表示 AUTO-INC 锁 。 


~ 一 


-BD- 在 InnoDB 存储 引 学 中 ， LOCK IS、 LOCK IX、 LOCK AUTO INC 都 算是 表 级 锁 
RE 上 ”的 模式 ; LOCK S 和 LOCK X 胸 可 以 是 表 级 锁 的 模式 ， 也 可 以 是 行 级 锁 的 模式 . 


lock type《〈 锁 关 型 ) 占用 第 5 一 8 位 ， 不 过 现 阶段 只 用 到 了 第 5 比特 和 第 6 比特 。 
mm LOCK_TABLE (十 进 制 的 16): 也 就 是 当 第 5 比特 设置 为 1 时 ， 表 示 表 级 锁 。 
nm LOCK_REC (十进制 的 32): 也 就 是 当 第 6 比特 设置 为 1 时 ， 表 示 行 级 锁 。 


—_— — a an 和 2 
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’ rec_lock_type〈 行 锁 的 具体 类 型 使 用 其 余 的 位 来 表示 。 只 有 在 lock type 的 值 为 LOCK 
REC 时 ， 也 就 是 只 有 在 该 锁 为 行 级 锁 时 ， 才 会 细 分 出 更 多 的 类 型 ， 
| ”。 LOCK_ORDINARY (十 进 制 的 0)， 表示 next-key 锁 。 
”LOCK_GAP (十 进 制 的 512):， 也 就 是 当 第 10 比特 设置 为 1 时 ， 表 示 gap 锁 。 
, ” 上 OCK_REC NOT_ GAP (十 进 制 的 1024): 也 就 是 当 第 11 比特 设置 为 1 时 ， 表 
正经 记录 锁 。 
| sa LOCK _INSERT_INTENTION (十 进 制 的 2048). 也 就 是 当 第 12 比特 设置 为 1 时 ， 
表示 插入 意向 锁 。 
@ 其 他 的 类 型 : 还 有 一 些 不 常用 的 类 型 ， 这 里 就 不 多 说 了 。 
怎么 还 没 看 见 is_waiting 属性 呢 ? 这 主要 还 是 因为 设计 InnoDB 的 大 叔 太 “抠门 ” 3 
个 比特 也 不 想 浪 费 ， 他 们 把 I!s_waiting 属性 也 放 到 了 type_mode 这 个 32 位 的 字段 中 。 
"LOCK_WAIT (十 进 制 的 256) : 也 就 是 当 第 9 比特 设置 为 1 时 ， 表 示 is_waiting 
为 true， 即 当前 事务 尚未 获取 到 锁 ， 处 在 等 待 状态 ; 当 这 个 比特 为 0 时 ， 表 
waiting 为 false， 即 当前 事务 获取 锁 成 功 。 
e 其 他 信息 : 为 了 更 好 地 管理 系统 运行 过 程 中 生成 的 各 种 锁 结构 ， 而 设计 了 各 种 哈 希 表 
和 链表 。 为 了 简化 讨论 ， 我 们 忽略 这 部 分 信息 。 
e 一 堆 比 特 位 :如 果 是 行 级 锁 结构 的 话 ， 在 该 锁 结构 末尾 还 放置 了 一 堆 比 特 位 。 比特 
位 的 数量 使 用 前 面 提 到 的 n_bits 属性 来 表示 。 前 文 在 啼 四 InnoDB 记录 结构 时 说 过 ， 
页 面 中 的 每 条 记录 在 记录 头 信息 中 都 包含 一 个 heap_no 属性 : Infimum 记录 的 heap 
no 值 为 0，Supremum 记录 的 heap_ no 值 为 1; 之 后 每 申请 一 条 新 记录 占用 的 存储 空 
加 ，heap no 值 就 增 1 。 锁 结构 最 后 的 一 堆 比 特 位 对 应 着 一 个 页 面 中 的 记录 ， 一 
特 位 映射 一 个 heap no， 个 过 为 了 编码 方便 ， 映 射 方式 有 点 怪 ， 如 图 22-14 所 示 。 


示 


不 is_ 





对 应 的 heap_no: T654321013 冯 B31 09 8 ... 
| 图 22-14 ”比特 位 和 heap no 的 映射 
- 例 : 这么 奇怪 的 映射 方式 纯粹 是 为 了 斋 代码 方便 ， 大 家 不 要 大 惊 小 怪 ， 只 需要 知道 一 个 
小 十 比特 位 映射 到 页 内 的 一 条 记录 就 好 了 。 Ss 


可 能 大 家 觉得 上 面 的 描述 有 些 抽象 ， 我 们 还 是 举 个 例子 说 明 一 下 。 比 如 ， 现在 有 Tl 和 
T2 这 两 个 事务 想 对 hero 表 中 的 记录 进行 加 锁 。hero 表 中 的 记录 比较 少 ， 假 设 这 些 记录 都 存储 
在 表 空 间 号 为 67、 页 号 为 3 的 页 面 上 。 如 果 T1 想 为 number 值 为 15 的 这 条 记录 加 S 型 正经 记 
录 锁 ， 则 在 对 记录 加 行 级 锁 之 前 ， 需要 先 加 表 级 别 的 IS 锁 ， 也 就 是 会 生成 一 个 表 级 锁 的 内 
存 结构 。 不 过 我 们 这 里 不 关心 表 级 锁 ， 所 以 直接 忽略 掉 。 接 下 来 分 析 一 下 生成 行 级 锁 结 构 的 

1. 事务 Tl 要 进行 加 锁 ， 所 以 锁 结 构 的 “ 锁 所 在 的 事务 信息 ” 指 的 就 是 T] 。 
2. 直接 对 聚 驴 索引 进行 加 锁 ， 所 以 索引 信息 指 的 其 实 就 是 PRIMARY 索引 。 
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3. 由 于 是 行 级 锁 ， 所 以 接 下 来 需要 记录 的 是 3 个 重要 的 信息 。 
e@ Space ID : 表 空 间 号 为 67。 
@ Page Number : 页 号 为 3。 
e@ n_bits : hero 表 中 现在 只 插入 了 5 条 用 户 记录 ， 但 是 在 初始 分 配 比 特 时 会 多 分 配 一 
些 ， 这 主要 是 为 了 在 之 后 新 增 记录 时 不 用 频繁 分 配 比 特 。 
其 实 n bits 有 一 个 计算 公式 : 


n bits = (1 + ((n_recs + LOCK_PRGE_BITMAP_MARGIN) + 8)) x8 


其 中 ，n recs 指 的 是 当前 页 面 中 一 共有 多 少 条 记录 (包含 伪 记 录 以 及 在 垃圾 链表 中 的 记录 )。 
比如 现在 hero 表 一 共有 7 条 记录 (5 条 用 户 记 录 和 2 条 伪 记 录 )， 所 以 n_recs 的 值 就 是 7。LOCK 
PAGE BITMAP MARGIN 是 一 个 固定 的 值 64， 所 以 本 次 加 锁 生 成 的 锁 结 构 的 n_bits 值 就 是 : 


n bits=(1 + ((7 + 64) +8) ) x8 = 72 


type_mode 是 由 3 部 分 组 成 的 。 

@ lock mode : 这 是 对 记录 加 S 锁 ， 它 的 值 为 LOCK_S。 

@ lock type : 这 是 对 记录 进行 加 锁 ， 也 就 是 行 级 锁 ， 所 以 它 的 值 为 LOCK REC。 

”rec lock type : 这 是 对 记录 加 正经 记录 锁 ， 也 就 是 类 型 为 LOCK REC_ NOT_GAP 
的 锁 。 另 外 ， 由 于 当前 没有 其 他 事务 对 该 记录 加 锁 ， 所 以 应 当 获 取 到 锁 ， 也 就 是 
LOCK WAIT 代表 的 二 进 制 位 应 该 是 0。 

综 上 所 述 ， 此 次 加 锁 的 type _ mode 的 值 应 该 如 下 所 示 : 


type_mode = LOCK_S | LOCK_REC | LOCK_REC_NOT_GAP 
即 
type_mode = 2 | 32 | 1024 = 1058 
e@ 其 他 信息 : 略 。 
e 一 堆 比 特 位 : 因为 number 值 为 15 的 记录 对 应 的 heap_no 值 为 5， 根 据 前 文 列举 的 比 


特 位 和 heap_no 的 映射 图 〈 见 图 22-14) 来 看 ， 应 该 是 第 一 个 字 节 从 低位 往 高 位 数 第 6 
比特 被 置 为 1， 如 图 22-15 所 示 。 


0|0 


图 22-15 me 6 比特 被 置 为 1 


综 上 所 述 ， 事 务 T1 为 number 值 为 15 的 记录 加 锁 时 ， 生 成 的 锁 结构 如 图 22-16 所 示 。 

如 果 T2 想 对 number 值 为 3、8、15 的 这 3 条 记录 加 XX 型 的 next-key 锁 ， 在 对 记录 加 行 级 
锁 之 前 ， 需 要 先 加 表 级 别 的 IX 锁 ， 也 就 是 会 生成 一 个 表 级 锁 的 内 存 结构 。 不 过 我 们 不 关心 表 
级 锁 ， 所 以 就 直接 忽略 掉 了 。 

现在 T2 要 为 这 3 条 记录 加 锁 ，number 为 3、8 的 两 条 记录 由 于 没有 其 他 事务 加 锁 ， 所 
以 T2 可 以 成 功 获取 到 相应 记录 的 X 型 next-key 锁 ， 也 就 是 生成 的 锁 结 构 的 is_waiting 属性 为 
false ; 但 是 number 为 15 的 记录 已 经 被 Tl 加 了 S 型 正经 记录 锁 ，T2 不 能 获取 到 该 记录 的 X 
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型 next-key 锁 ， 也 就 是 生成 的 锁 结构 的 !s_waiting 属性 为 tue。 因 为 等 待 状态 不 相同 ， 所 以 这 
时 会 生成 两 个 锁 结 构 。 这 两 个 锁 结构 中 相同 的 属性 如 下 。 





e 事务 T2 要 进行 加 锁 ， 所 以 锁 结构 的 “ 锁 所 在 的 事务 信息 ” 指 的 就 是 T2。 
e 直接 对 聚 簇 索 引进 行 加 锁 ， 所 以 索引 信息 指 的 其 实 就 是 PRIMARY 索引 。 
e 由 于 是 行 级 锁 ， 所 以 接 下 来 需要 记录 3 个 重要 的 信息 。 

四 Space ID : 表 空 间 号 为 67。 

四 ”Page Number : 页 号 为 3。 

里 n_bits : 该 属性 的 生成 策略 与 Tl 中 一 样 《这 里 该 属性 的 值 为 72)。 
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图 22-16 事务 TI 为 number 值 为 15 的 记录 加 锁 时 生成 的 锁 结构 
type_mode 是 由 3 部 分 组 成 的 : 
9 lock_mode : 这 是 对 记录 加 和 X 锁 ， 它 的 值 为 LOGK 天 
。 lock _ type : 这 是 对 记录 进行 加 锁 ， 也 就 是 行 级 锁 ， 所 以 它 的 值 为 LOCK REC。 
中 lock type : 这 是 对 记录 加 next-key 锁 ， 也 就 是 类 型 为 LOCK ORDINARY 的 锁 。 


其 他 信息 略 。 

两 个 锁 结构 不 同 的 属性 如 下 。 

e 为 number 为 3、8 的 记录 生成 的 锁 结构 。 
四 type mode 值 。 


由 于 可 以 获取 到 锁 ， 所 以 is_waiting 属性 为 false， 也 就 是 LOCK_WAIT 代表 的 二 进 
制 位 被 置 0。 所 以 ， 


type_mode = LOCK XxX | LOCK REC |LOCK_ORDINRRY， 


也 就 是 


type mode = 3 | 32 10= 35 
日 一 堆 比 特 。 
因为 number 值 为 3、8 的 记录 对 应 的 heap no 值 分 别 为 3、4， 根据 前 面 列举 的 比 


特 和 heap_no 的 映射 图 ( 见 图 22-14) 来 看 ， 应 该 是 第 一 个 字 节 从 低位 往 高 位 数 第 4、 
5 比特 被 置 为 1， 如 图 22-17 所 示 。 


综 上 所 述 ， 事 务 T2 为 number 值 为 3、8 两 条 记录 加 锁 时 ， 生成 的 锁 结构 如 图 22-18 所 示 。 
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图 22-17 第 一 个 字 节 从 低位 往 高 位 数 图 22-18 ”事务 T2 为 number 值 为 3、 
第 4、5 比特 被 置 为 1 8 两 条 记录 加 锁 生 成 的 锁 结构 
e@ 为 number 为 15 的 记录 生成 的 锁 结构 。 
四 type mode 值 。 


由 于 不 可 以 获取 到 锁 ， 所 以 is_waiting 属性 为 tue， 也 就 是 LOCK WAIT 代表 的 二 
进 制 位 被 置 1。 所 以 ， 


type_mode = LOCK_X | LOCK_REC 1LOCK_ORDINRRY | LOCK_WRIT 
也 就 是 


type mode =3 | 32 10 | 256 = 291 


昌 一 堆 比 特 。 
因为 number 值 为 15 的 记录 对 应 的 heap_no 值 为 5， 根 据 前 面 列举 的 比特 和 heap no 的 
映射 图 ( 见 图 22-14) 来 看 ， 应 该 是 第 一 个 字 节 从 低位 往 高 位 数 第 6 比特 被 置 为 1， 如 
22-19 所 示 。 : 
综 上 所 述 ， 事 务 T2 为 number 值 为 15 的 记录 加 锁 时 ， 生 成 的 锁 结构 如 图 22-20 所 示 。 
综 上 所 述 ， 事 务 Tl 先 获 取 number 值 为 15 的 S 型 正经 记录 锁 ， 然 后 事务 T2 获取 number 
值 为 3、8、15 的 X 型 正经 记录 锁 ， 整 个 过 程 共 需要 生成 3 个 行 锁 结构 。 





和 > = 


22-19 ”第 一 个 字 节 从 低位 往 高 位 数 22-20 事务 T2 i 值 为 15 的 
第 6 比特 被 置 为 1 记录 加 锁 时 生成 的 锁 结构 
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事务 T2 在 对 number 值 分 别 为 3、 8、15 的 这 3 条 记录 加 锁 的 场景 中 ， 是 先 对 - 
i number 值 为 3 的 记录 加 锁 ， 再 对 number 值 为 8 的 记录 加 锁 ; 最 后 对 number 值 为 15 的 
~ 兴 (- ”记录 加 锁 。 如 果 一 开始 就 对 number 值 为 15 的 记录 加 锁 ; 那么 该 事务 在 为 Dumber 值 为 
从、 这 的 记 条 生成 三 个 铺 引产 后 忆 二 本 示 关于 全 光 这 ， 就 不 再 为 mumber 值 为 3、8 的 两 条 
记录 生成 锁 结构 了 。 在 事务 TI 提交 后 会 把 在 i 值 为 15 的 记录 上 获取 的 锁 释 放 掉 
然后 事务 T2 就 可 以 获取 该 记录 上 的 人 锁 ， 这 时 再 对 number 值 为 3、 8 Be 
a. 就 可 以 复 用 之 前 为 number 值 为 15 的 记录 加 锁 时 生成 的 锁 结 构 了 


22.4 语句 加 锁 分 析 


说 了 这 么 多 ， 还 是 没有 说 一 条 具体 的 语句 该 加 什么 锁 〈 心 里 是 不 是 有 点 着 急 了 )。 不 过 在 
一 步 分 析 之 前 ， 我 们 先 给 hero 表 的 name 列 建 一 一 个 索引 : 


ALTER TABLE hero ADD INDEX idx name (name) ; 


现在 ，hero 表 就 有 了 两 个 索引 (一 个 二 级 索引 和 一 个 聚 簇 索 引 )， 如 图 22-21 所 示 。 
idx_name 案 引 示 意图 : 


聚 儿 案 引 示 意图 : 


number 列 | : 
name 列 | : 


country 列 : 





方便 起 见 ， 这 里 把 语句 分 为 4 大 类 : 普通 的 SELECT 语句 、 锁定 读 的 语句 、 半 一 致 性 读 
的 语句 以 及 INSERT 语句 。 下 面 分 别 详细 讨论 。 


22.4.1 普通 的 SELECT 语句 


企 不 同 的 隔离 级 别 下 ， 普 通 的 SELECT 语句 具有 不 同 的 表现 ， 具 体 如 下 。 

e 在 READ UNCOMMITTED 隔离 级 别 下 ， 不 加 锁 ， 直接 读 取 记 录 的 最 新 版 本 ， 可 能 出 
现 脏 读 、 不 可 重复 读 和 幻 读 现象 。 

。 在 READ COMMITTED 隔离 级 别 下 ， 不 加 锁 ， 在 每 次 执行 普通 的 SELECT 语句 时 都 
会 生成 一 个 ReadView， 这 样 避免 了 脏 读 现象 ， 但 没有 避免 不 下 ` 可 重复 读 和 幻 读 现象 。 
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e 在 REPEATABLE READ 隔离 级 别 下 ， 不 加 锁 ; 只 在 第 一 次 执行 普通 的 SELECT 语句 
时 生成 一 个 ReadView， 这 样 就 把 脏 读 、 不 可 重复 读 和 幻 读 现象 都 避免 了 。 

不 过 这 里 有 一 个 小 插曲 : 

# 事务 T1，REPEATABLE RERAD 隔 离 级 别 下 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


Ms 4 A " ”A rr3 


mysql> SELECT * FROM hero WHERE number = 30; 
Empty set (0.01 sec) 


# 此 时 事务 T2 执 行 了 : INSERT INTO hero VALUES (30，'q 关 羽 !，' 魏 ') ; 语句 并 提交 
mysql> UPDATE hero SET country = ' 蜀 ' WHERE number = 30; > 
Query OK，1 row affected (0.01 sec) 


Rows matched: 1 Changed: 1 Warnings: 0 


mysql> SELECT * FROM hero WHERE number = 30; 


+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 =- 
| number | name | country | 
+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.01 sec) 


| 30 | g 关 羽 |1 罚 | 


个 ReadView， 之 后 T2 同 hero 表 中 新 插入 一 条 记录 并 提交 。ReadView 并 不 能 阻止 TI 执行 

UPDATE 或 者 DELETE 语句 来 改动 这 个 新 插入 的 记录 (由 于 T2 已 经 提交 ， 因 此 改动 该 记录 并 

不 会 造成 阻塞 )， 但 是 这 样 一 来 ， 这 条 新 记录 的 trx id 隐藏 列 的 值 就 变 成 了 TI1 的 事务 id。 之 

后 Tl 再 使 用 普通 的 SELECT 语句 去 查询 这 条 记录 时 就 可 以 看 到 这 条 记录 了 ， 也 就 可 以 把 这 条 

记录 返回 给 客户 端 。 因 为 这 个 特殊 现象 的 存在 ， 我 们 也 可 以 认为 InnoDB 中 的 MVCC 并 不 能 

完全 禁止 幻 读 (我 们 之 前 一 直 说 ， 在 REPEATABLE READ 隔离 级 别 下 可 以 很 大 程度 地 避免 纪 

读 现 象 ， 而 不 是 完全 避免 。 这 个 梗 终于 在 这 里 圆 上 了 )。 
e 在 SERIALIZABLE 隔离 级 别 下 ， 需 要 分 下 面 两 种 情况 进行 讨论 。 


在 REPEATABLE READ 隔离 级 别 下 ，T1 第 一 次 执行 普通 的 SELECT 语句 时 生成 了 一 


@ 在 系统 变量 autocommit=0 时 〈 即 禁用 自动 提交 时 )， 普 通 的 SELECT 语句 会 被 转 

换 为 SELECT...LOCK IN SHARE MODE 这 样 的 语句 。 也 就 是 在 读 取 记 录 前 需要 先 

获得 记录 的 S 锁 。 具 体 的 加 锁 情 况 与 在 REPEATABLE READ 隔离 级 别 下 一 样 ， 我 

们 后 面 再 分 析 。 
@ 在 系统 变量 autocommit=1 时 〈 即 启用 自动 提交 时 )， 普 通 的 SELECT 语句 并 不 会 | 

加 锁 ， 只 是 利用 MVCC 生成 一 个 ReadView 来 读 取 记 录 。 为 啥 不 加 锁 呢 ?因为 启 

用 上 自动 提交 意味 着 一 个 事务 中 只 包含 一 条 语句 ， 而 只 执行 一 条 语句 也 就 不 会 出 现 不 

可 重复 读 、 约 读 这 样 的 现象 了 。 


22.4.2 ”锁定 读 的 语句 


我 们 把 下 面 4 种 语句 放 到 一 起 讨论 。 
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语句 1: SELECT ... LOCK IN SHARE MODE: 

语句 2: SELECT ... FOR UPDATE: 

语句 3: UPDATE ... 

e 语句 4: DELETE ... 

语句 1 和 语句 2 是 MySQL 中 规定 的 两 种 锁定 读 的 语法 格式 ， 而 语句 3 和 语句 4 由 于 在 执 
全 过程 中 需要 首先 定位 到 被 改动 的 记录 并 给 记录 加 锁 ， 因 此 也 可 以 认为 是 一 种 锁定 读 。 在 正 趟 
介绍 锁定 读 的 语句 如 何 给 记录 加 锁 之 前 ， 需 要 先 引入 两 个 概念 : 匹配 模式 和 唯一 性 搜索 ， 


BE SE dhl A wd 
@ 9 


e 号 配 模式 (match mode) 
我 们 知道 ， 在 使 用 索引 执行 查询 时 ， 查 询 优化 器 首先 会 生成 若干 个 扫描 区 间 。 针 对 每 一 个 
扫描 区 间 ， 我 们 都 可 以 在 该 扫描 区 间 中 快速 地 定位 到 第 一 条 记录 ， 然 后 沿 着 这 条 记录 所 在 的 单 
门 链表 就 可 以 访问 到 该 扫描 区 间 内 的 其 他 记录 ， 直 到 某 条 记录 不 在 该 扫描 区 间 中 为 止 。 如 果 补 
扫描 的 区 间 是 一 个 单 点 扫描 区 间 ， 我 们 就 可 以 说 此 时 的 匹配 模式 为 精确 匹配 。 比 如 ， 我 们 为 某 
个 表 的 a、b 这 两 个 列 建立 了 一 个 联合 索引 idx_a_b(a,b)， 我 们 举 几 种 不 同 的 查询 情况 。 
\ ”如 果 形成 扫描 区 间 的 边界 条 件 是 a=1， 那 么 它 对 应 的 扫描 区 间 就 是 [1, 1]。 设 计 
InnoDB 的 大 叔 认 为 这 是 一 个 单 点 扫描 区 间 。 如 果 查 询 优化 器 决定 通过 访问 这 个 扫 
描 区 间 中 的 记录 来 执行 查询 ， 那 么 此 时 的 匹配 模式 就 是 精确 匹配 。 
”如 果 形成 扫描 区 间 的 搜索 条 件 是 a=1 AND b=1， 那 么 它 对 应 的 扫描 区 间 就 是 [(1, 1)， 
(1, 1)]。 议 计 InnoDB 的 大 叔 也 认为 这 是 一 个 单 点 扫描 区 间 。 如 果 查 询 优化 器 决定 
通过 访问 这 个 扫描 区 间 中 的 记录 来 执行 查询 ， 那 么 此 时 的 匹配 模式 就 是 精确 匹配 。 
时 如 果 形 成 扫描 区 间 的 搜索 条 件 是 a=1 AND b>=1， 对 应 的 扫描 区 间 就 是 [(1, 1), (1， 
" + es ))。 惧 计 InnoDB 的 大 叔 认为 这 个 扫描 区 间 不 算是 一 个 单 点 扫描 区 间 。 如 果 查 
询 优化 器 决定 通过 访问 这 个 扫描 区 间 中 的 记录 来 执行 查询 ， 那 么 此 时 的 匹配 模式 就 
不 是 精确 匹配 。 
e 唯一 性 搜索 (unique search ) 
如 果 在 扫描 某 个 扫描 区 间 的 记录 前 ， 就 能 事先 确定 该 扫描 区 间 内 最 多 只 包含 一 条 记录 的 
语 ， 那 么 就 把 这 种 情况 称 作 唯一 性 搜索 。 那 么 ， 怎 么 确定 某 个 扫描 区 间 最 多 只 包含 一 条 记录 
呢 ? 其 实 查 询 只 要 符合 下 面 这 些 条 件 ， 就 可 以 确定 最 多 只 包含 一 条 记录 了 ， 
四 死 配 模式 为 精确 匹配 ; 
四” 使 用 的 索引 是 主键 或 者 唯一 二 级 索引 ; 
加 如 果 使 用 的 索引 是 唯一 二 级 索引 ， 那 么 搜索 条 件 不 能 为 “索引 列 IS NULL” 的 形式 
(这 是 因为 对 于 唯一 二 级 索引 列 来 说 ， 可 以 存储 多 个 值 为 NULL 的 记录 ). 
日。 如果 索引 中 包含 多 个 列 ， 那 么 在 生成 扫描 区 间 时 ， 每 一 个 列 都 得 被 用 到 。 
比如 ， 我 们 为 某 个 表 的 a、b 这 两 个 列 建立 了 一 个 唯一 联合 索引 uk a blab)， 那 么 对 于 搜 
索 条 件 a=1 形成 的 扫描 区 间 来 说 ， 不 能 保证 该 扫描 区 间 中 最 多 只 包含 一 条 记录 ; 对 于 搜索 条 件 
3=1 AND b=1 形成 的 扫描 区 间 来 说 ， 则 可 以 保证 该 扫描 区 间 内 最 多 只 包含 一 条 记录 。 
企 了 解 了 匹配 模式 和 唯一 性 搜索 的 概念 之 后 ， 我 们 就 要 着 手 分 析 语句 加 锁 的 过 程 了 。 其 
实 ， XXX 语句 该 为 哪些 记录 加 什么 锁 ” 本 身 就 是 个 伪 命 题 。 语 句 在 执行 过 程 中 可 能 需要 访问 
多 个 扫描 区 间 中 的 记录 ， 在 为 这 些 记 录 加 锁 时 也 会 受到 好 多 条 件 制 约 ， 比 如 下 面 这 些 制约 ， 
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事务 的 隔离 级 别 ; 

语句 执行 时 使 用 的 索引 类 型 〈 比 如 聚 艇 索引、 唯一 二 级 索引 、 普 通 二 级 索引 ); 
是 否 是 精确 匹配 ; 

是 否 是 唯一 性 搜索 ; 

e 具体 执行 的 语句 类 型 (SELECT、JINSERT、UPDATE、DELETE )。 

由 于 在 语句 的 执行 过 程 中 ， 对 记录 进行 加 锁 的 影响 因素 太 多 了 ， 上 所 以 我 们 决定 先 分 析 在 一 般 
情况 下 ， 在 语句 执行 过 程 中 该 如 何 对 记录 进行 加 锁 ， 然 后 再 列举 一 些 比较 特殊 的 情况 进行 分 析 。 

另外 需要 注意 的 一 点 是 ， 事 务 在 执行 过 程 中 所 获取 的 锁 一 般 在 事务 提交 或 者 回 滚 时 才 会 释 
放 ， 但 是 在 隔离 级 别 不 大 于 READ COMMITTED 时 ， 在 某 些 情况 下 也 会 提前 将 一 些 不 符合 搜 
条 件 的 记录 上 的 锁 释 放 掉 (这 主要 是 考虑 在 较 低 的 隔离 级 别 中 ， 可 以 允许 事务 更 大 程度 地 并 发 
执行 )。 这 一 点 会 在 稍 后 会 强调 ， 请 大 家 留意 。 

我 们 把 锁定 读 的 执行 看 成 是 依次 读 取 若干 个 扫描 区 间 中 的 记录 (如 果 是 全 表 扫 描 ， 就 把 它 
看 成 是 扫描 扫描 区 间 (一 ,+ c) 中 的 聚 簇 索引 记录 )。 在 一 般 情 况 下 ， 读 取 某 个 扫描 区 间 中 
记录 的 过 程 如 下 所 示 。 

步骤 1. 首先 快速 地 在 B+ 树叶 子 节点 中 定位 到 该 扫描 区 间 中 的 第 一 条 记录 ， 把 该 记录 作为 

步 又 2. 为 当前 记录 加 锁 。 

一 般 情况 下 ， 对 于 锁定 读 的 语句 ， 在 隔离 级 别 不 大 于 READ COMMITTED ( 指 的 就 是 
READ UNCOMMITEED、READ COMMITTED) 时 ， 会 为 当前 记录 加 正经 记录 锁 。 在 隔离 级 
别 不 小 于 REPEATABLE READ ( 指 的 就 是 REPEATABLE READ、SERIALIZABLE) 时 ， 会 为 
当前 记录 加 next-key 锁 。 

步 又 3. 判断 索引 条 件 下 推 的 条 件 是 否 成 立 。 

前 文 介绍 过 一 个 名 为 索引 条 件 下 推 ( Index Condition Pushdown，ICP) 的 功能 ， 用 来 把 查 
询 中 与 被 使 用 索引 有 关 的 搜索 条 件 下 推 到 存储 引擎 中 判断 ， 而 不 是 返回 到 server 层 再 判断 。 不 
过 需要 注意 的 是 ， 索 引 条 件 下 推 只 是 为 了 减少 回 表 次 数 ， 也 就 是 减少 读 取 完 整 的 聚 簇 索引 记录 
的 次 数 ， 从 而 减少 IO 操作 。 所 以 它 只 适用 于 二 级 索引 ， 不 适用 于 聚 徐 索引 。 另 外， 索引 条 件 
下 推 仅 适用 于 SELECT 语句 ， 不 适用 于 UPDATE、DELETE 这 些 需 要 改动 记录 的 语句 。 

在 存在 索引 条 件 下 推 的 条 件 时 ， 如 果 当 前 记录 符合 索引 条 件 下 推 的 条 件 ， 则 跳 到 步骤 4 继 
续 执行 ， 如 果 不 符合 ， 则 直接 获取 到 当前 记录 所 在 单 向 链表 的 下 一 条 记录 ， 将 该 记录 作为 新 的 
当前 记录 ， 并 跳 回 步骤 2。 另 外 ， 步 骤 3 还 会 判断 当前 记录 是 否 符合 形成 扫描 区 间 的 边界 条 件 ， 
如 果 不 符合 ， 则 跳 过 步骤 4 和 步骤 S， 直 接 向 server 层 返回 一 个 “查询 完毕 ”的 信息 。 这 里 需 
要 注意 的 是 ， 步 骤 3 不 会 释放 锁 。 

步骤 4. 执行 回 表 操 作 。 

如 果 读 取 的 是 二 级 索引 记录 ， 则 需要 进行 回 表 操作 ， 获 取 到 对 应 的 聚 簇 索引 记录 并 给 该 聚 
簇 索引 记录 加 正经 记录 锁 。 

步骤 $S， 判断 边界 条 件 是 否 成 立 。 

如 果 该 记录 符合 边界 条 件 ， 则 跳 到 步骤 6 继续 执行 ， 否 则 在 隔离 级 别 不 大 于 READ 


dA ro 
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COMMITTED 时 ， 就 要 释放 掉 加 在 该 记录 上 的 锁 (在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， | 
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个 释放 加 在 该 记录 上 的 锁 ) ， 并 且 向 server 层 返 回 一 个 “查询 完毕 ”的 信息 。 
步骤 6。server 层 判断 其 余 搜索 条 件 是 否 成 立 。 
除了 索引 条 件 下 推 中 的 条 件 以 外 ， server 层 还 需要 判断 求 他 搜索 条 件 是 否 成 立 。 如 果 成 
立 ， 则 将 该 记录 发 送 到 客户 端 ， 否 则 在 隔离 级 别 不 大 于 READ COMMITTED 时 ， 就 要 有 释放 掉 
加 在 该 记录 上 的 锁 (在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 不 释放 加 在 该 记录 上 的 锁 )。 
步骤 7. 获取 当前 记录 所 在 单 向 链表 的 下 一 条 记录 ， 并 将 其 作为 新 的 当前 记录 ， 并 跳 回 步 
又 2。 


考虑 到 上 面 这 些 步 又 都 是 干巴 巴 的 文字 ， 比较 星 涩 难 懂 ， 下 面 结合 几 个 实例 来 演示 一 下 。 
e@ 实例 1: 


SELECT * FROM hero WHERE number > 1 AND number <= 15 AND country = ' 魏 ' LOCK IN SHARE MODE， 


在 给 定 了 一 个 语句 后 ， 我 们 并 不 清楚 查询 优化 器 将 以 什么 方式 来 执行 它 ， 所 以 可 以 通过 
EXPLAIN 语句 查看 该 语句 的 执行 计划 : 


ms91> EXPLAIN SELECT ”FROM hero WHERE nunber > 1 AND number <= 15 AND country = ' 魏 ，Iocr IN SHARE MODE; 














$f Te 

| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | fitered | Extra | 
+ 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 ~ 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 全 一 一 一 一 一 一 -4 一 一 4- 一 ~ 一 一 + 一 一 一 

| 1 | SIMPLE | hero | NULL | range | PRIMARY | PRIMARY | 4 | ROLL | 31 20.00 | Using where | 
4 一 一 一 一 修一 一 一 一 一 一 一 一 一 一 一 -+4 一 一 一 一 











1 row in set, 1 warning (0.02 sec) 
从 执行 计划 可 以 看 出 ， 查 询 优 化 器 将 通过 range 访问 方法 来 读 取 聚 簇 索 引 记 录 中 的 一 些 记 
录 。 很 显然 ， 我 们 可 以 通过 搜索 条 件 number > 1 AND number <= 15 来 生成 扫描 区 间 (1, 15]， 
也 就 是 需要 扫描 number 值 在 (1, 15] 区 则 中 的 所 有 聚 徐 索 引 记 录 。 
我 们 先 来 分 析 该 语句 在 隔离 级 别 不 大 于 READ COMMITTED 时 的 加 锁 过 程 。 
四 ”对 number 值 为 3 的 聚 簇 索 引 记 锁 过 程 进行 分 析 
步骤 1， 读 取 在 (1, 15] 扫描 区 间 的 第 一 条 聚 艇 索引 记录 ， 也 就 是 number 值 为 3 的 聚 簇 索引 
记录 。 
步骤 2， 为 number 值 为 3 的 聚 簇 索引 记录 加 S 型 正经 记录 锁 。 
步骤 3. 由 于 读 取 的 是 聚 簇 索引 记录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 
步骤 4. 由 于 读 取 的 本 身 就 是 聚 簇 索引 记录 ， 所 以 不 需要 执行 回 表 操作 。 
步骤 $， 形 成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 
值 为 3 的 聚 艇 索引 记录 符合 该 边界 条 件 。 
步骤 6. server 层 继续 判断 number 值 为 3 的 聚 簇 索引 记录 是 否 符合 条 件 number > 1 AND 
number <= 15 AND country=' 魏 '。 很 显然 不 符合 ， 所 以 释放 掉 加 在 该 记录 上 的 锁 。 
步骤 7.。 获取 number 值 为 3 的 聚 簇 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 number 值 
为 8 的 聚 簇 索引 记录 。 
”对 number 值 为 8 的 聚 簇 索引 记录 的 加 锁 过 程 进行 分 析 
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是 ， 


步骤 2. 
步骤 3. 
步骤 4. 
步骤 $. 


步骤 6. 


步骤 7. 


为 number 值 为 8 的 聚 簇 索 引 记 录 加 S 型 正经 记录 锁 。 

由 于 读 取 的 是 聚 簇 索引 记录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 本 身 就 是 聚 簇 索引 记录 ， 所 以 不 需要 执行 回 表 操 作 。 

形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 
值 为 8 的 聚 簇 索引 记录 符合 该 边界 条 件 。 

server 层 继续 判断 number 值 为 8 的 聚 簇 索引 记录 是 否 符合 条 件 number > 1 AND 
number <= 15 AND country =' 魏 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释 
放 加 在 该 记录 上 的 锁 。 

获取 number 值 为 8 的 聚 艇 索引 记录 所 在 单身 链表 的 下 一 条 记录 ， 也 就 是 number 值 
为 15 的 聚 簇 索 引 记录 。 


四 ”对 number 值 为 15 的 聚 簇 索 引 记录 的 加 锁 过 程 进行 分 析 


步 又 2. 
步骤 3. 


步骤 4. 
步骤 S. 


步骤 6. 


步骤 7. 


为 number 值 为 15 的 聚 簇 索引 记录 加 S 型 正经 记录 锁 。 

由 于 读 取 的 是 聚 簇 索引 记录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 本 身 就 是 聚 簇 索引 记录 ， 所 以 不 需要 执行 回 表 操作 。 

形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 
值 为 15 的 聚 簇 索引 记录 符合 该 边界 条 件 。 

server 层 继 续 判 断 number 值 为 15 的 聚 簇 索 引 记 录 是 否 符 合 条件 number > 1 AND 
number <= 15 AND country = ' 魏 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释 
放 加 在 该 记录 上 的 锁 。 

获取 number 值 为 15 的 聚 簇 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 number 
值 为 20 的 聚 簇 索引 记录 。 


曙 ”对 number 值 为 20 的 聚 簇 索 引 记录 的 加 锁 过 程 进 行 分 析 


步骤 2. 
步骤 3. 
步骤 4. 
步骤 $. 


步骤 6. 


为 number 值 为 20 的 聚 簇 索引 记录 加 S 型 正经 记录 锁 。 

由 于 读 取 的 是 聚 簇 索 引 记 录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 本 身 就 是 聚 簇 索引 记录 ， 所 以 不 需要 执行 回 表 操作 。 

形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 
值 为 20 的 聚 簇 索 引 记 录 不 符合 该 边界 条 件 。 释 放 掉 加 在 该 记录 上 的 锁 ， 并 给 server 
层 返 回 一 个 “查询 完毕 ”的 信息 。 

server 层 收 到 存储 引擎 返回 的 “查询 完毕 ”信息 ， 结 束 查 询 。 


综 上 所 述 ， 在 隔离 级 别 不 大 于 READ COMMITTED 的 情况 下 ， 该 语句 在 执行 过 程 中 的 加 
锁 效果 如 图 22-22 所 示 。 
在 图 22-22 中 ， 我 们 使 用 带 圆圈 的 数字 对 各 个 记录 的 加 锁 顺序 进行 了 标记 。 需 要 注意 的 
对 于 number 值 为 3、20 的 聚 簇 索引 记录 来 说 ， 都 是 先 加 锁 ， 后 释放 锁 。 
下 面 再 分 析 该 语句 在 隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 过程 。 

下 对 number 值 为 3 的 聚 簇 索引 记录 的 加 锁 过 程 进 行 分 析 


步 又 1. 


读 取 在 (1, 15] 扫描 区 间 的 第 一 条 聚 秘 索引 记录 ， 也 就 是 number 值 为 3 的 聚 簇 索引 
记录 。 


人 


了 名 % 


步骤 2. 为 number 值 为 3 的 聚 簇 索 引 记 录 加 S 型 next-key 锁 。 | 
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人 ™™ 


步骤 3. 
步骤 4. 
步骤 S. 


步骤 6. 


步骤 7. 






聚 灸 索引 示意 图 : 


nuimber 列 : 
name 列 : 


country 列 : 


这 二 
A -oprag wy, -" 
\ < 天 一 了 筷 二 >- i 


jaw 
a EE 


图 22-22 隔离 级 别 不 大 于 READ COMMITTED 时 的 加 锁 效果 示意 图 


由 于 读 取 的 是 聚 簇 索引 记录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 本 身 就 是 聚 簇 索 引 记录 ， 所 以 不 需要 执行 回 表 操 作 。 

形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 
值 为 3 的 聚 簇 索引 记录 符合 该 边界 条 件 。 

server 层 继续 判断 number 值 为 3 的 聚 簇 索 引 记 录 是 否 符合 条 件 number > 1 AND 
number <= 15 AND country =' 魏 '。 很 显然 不 符合 ， 但 是 由 于 现在 的 隔离 级 别 不 小 于 
REPEATABLE READ， 所 以 不 会 释放 掉 加 在 该 记录 上 的 锁 。 

获取 number 值 为 3 的 聚 簇 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 number 值 
为 8 的 聚 簇 索引 记录 。 


里 对 number 值 为 8 的 聚 艇 索引 记录 的 加 锁 过 程 进行 分 析 


步骤 2. 
步骤 3. 
步骤 4. 
步骤 $. 


步骤 6. 


步骤 7. 


为 number 值 为 8 的 聚 簇 索引 记录 加 S 型 next-key 锁 。 

由 于 读 取 的 是 聚 簇 索引 记录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 本 身 就 是 聚 簇 索引 记录 ， 所 以 不 需要 执行 回 表 操 作 。 

形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 
值 为 8 的 聚 簇 索 引 记 录 符 合 该 边界 条 件 。 

server 层 继 续 判 断 number 值 为 8 的 聚 簇 索引 记录 是 否 符合 条 件 number > 1 AND 
number <= 15 AND country = ' 魏 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释 
放 加 在 该 记录 上 的 锁 。 


获取 number 值 为 8 的 聚 簇 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 number 值 
为 15 的 聚 簇 索 引 记录 。 


加 对 number 值 为 15 的 聚 簇 索引 记录 的 加 锁 过 程 进 行 分 析 


步骤 2. 
步骤 3. 
步骤 4. 
步骤 $. 


步骤 6. 


为 number 值 为 15 的 聚 簇 索引 记录 加 S 型 next key 锁 。 

由 于 读 取 的 是 聚 簇 索引 记录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 本 身 就 是 聚 簇 索引 记录 ， 所 以 不 需要 执行 回 表 操 作 。 

形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 mumber 
值 为 15 的 聚 簇 索引 记录 符合 该 边界 条 件 。 

server 层 继 续 判 断 number 值 为 15 的 聚 簇 索引 记录 是 否 符合 条 件 number > 1 AND 
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number <= 15 AND country = ' 魏 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释 
放 加 在 该 记录 上 的 锁 。 

步骤 7。 获取 number 值 为 15 的 聚 簇 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 number 
值 为 20 的 聚 簇 索引 记录 。 

四 ”对 number 值 为 20 的 聚 簇 索引 记录 的 加 锁 过 程 进 行 分 析 

步骤 2. 为 number 值 为 20 的 聚 簇 索 引 记 录 加 S 型 next key 锁 。 

步骤 3. 由 于 读 取 的 是 聚 簇 索 引 记 录 ， 所 以 没有 索引 条 件 下 推 的 条 件 。 

步 又 4. 由 于 读 取 的 本 身 就 是 聚 簇 索 引 记 录 ， 所 以 不 需要 执行 回 表 操 作 。 

步骤 $。 形成 扫描 区 间 (1, 15] 的 边界 条 件 是 number > 1 AND number <= 15， 很 显然 number 值 
为 20 的 聚 簇 索 引 记录 不 符合 该 边界 条 件 。 由 于 现在 的 隔离 级 别 不 小 于 REPEATABLE 
READ， 所 以 不 会 释放 加 在 该 记录 上 的 锁 ， 之 后 给 server 层 返 回 一 个 “查询 完毕 ” 
的 信息 。 

步骤 6. server 层 收 到 存储 引擎 返回 的 “查询 完毕 ”信息 ， 结 束 查 询 。 

综 上 所 述 ， 在 隔离 级 别 不 小 于 REPEATABLE READ 的 情况 下 ， 该 语句 在 执行 过 程 中 的 加 

锁 效 果 就 如 图 22-23 所 示 。 
聚 饶 索 引 示意 图 : 


number 列 |: 


country 列 |: 





图 22-23 ”隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效 果 示 意图 
在 图 22-23 中 ， 我 们 最 终 为 number 值 为 3、8、15、20 这 几 条 记录 都 加 了 S 型 next-key 
锁 ， 并 且 在 语句 执行 过 程 中 并 没有 释放 某 个 记录 上 的 锁 。 这 一 点 与 在 隔离 级 别 不 大 于 READ 
COMMITTED 的 加 锁 情 况 是 很 不 一 样 的 ， 需 要 大 家 注意 。 
e 实例 2 


SELECT * FROM hero FORCE INDEX(idx_name) WHERE name > 'c 曹 操 ' AND name <= !'x 荀 或 ， 
AND country != ' 吴 ' LOCK IN SHARE MODE; 


我 们 需要 先 通过 EXPLAIN 语句 确定 该 语句 的 执行 计划 : 


mysql> EXPIAIN SELECT ”FROM hero FORCE INDEX (idx_ name) WHERE name > 'c 曹 挤 " AND name <= 'x 和 焉 XRD country != ' 吴 ' LOCK IN SHARE MDCE; 
-—————-——+-———— ++ 





一 +— 一 一 一 一 一 一 一 一 一 一 一 一 
| id | select type | table | partitions | type | possible keys | key | key_ len | ref | rows | 们 tered | Extra | 
Pe 
| 1 SIMPLE | hero | NULL | range | idx_ nam 1 idx name | 303 | NULL | 31 80.00 | Using index condition; Using where | 
4 一 一 一 一 一 一 下 + 一 一 -一 二 一 一- 一 一 一 一 一 一 一 一 一 一 一 一 





从 执行 计划 可 以 看 出 ， 查 询 优化 器 将 通过 range 访问 方法 来 读 取 二 级 索引 idx name 中 的 
一 些 记录 。 很 显然 ， 我 们 可 以 通过 搜索 条 件 name > 'c 曹操 ' AND name <= x 荀 或 ' 来 生成 扫描 
区 间 ('c 曹操 ','x 苟 或 ]， 也 就 是 需要 扫描 name 值 在 ('c 曹操 ' x 荀 或 区间 中 的 所 有 二 级 索引 
记录 。 另 外 ， 在 执行 计划 的 Extra 列 提示 了 额外 信息 Using index condition， 这 意味 着 执行 该 查 








六 
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二 
询 时 将 使 用 到 索引 条 件 下 推 的 条 件 。 





我 们 先 分 析 该 语句 在 隔离 级 别 不 大 于 READ COMMITTED 时 的 加 锁 过 程 。 
田 ” 对 name 值 为 1 刘备 ' 的 二 级 索引 记录 的 加 锁 过 程 进行 分 析 


步骤 1， 读 取 在 (ce 曹操 ,x 敬 或] 扫描 区 间 的 第 一 条 二 级 索引 记录 ， 也 就 是 name 值 为 1 刘备 ' 
的 二 级 索引 记录 。 

步骤 2. 为 name 值 为 1 刘备 ' 的 二 级 索引 记录 加 S 型 正经 记录 锁 。 

步骤 3， 本 语句 的 索引 条 件 下 推 的 条 件 为 name > 'c 曹操 ' AND name <= x 苟 或 '， 很 显然 
name 值 为 1 刘备 ' 的 二 级 索引 记录 符合 索引 条 件 下 推 的 条 件 。 

步骤 4， 我 们 读 取 的 是 二 级 索引 记录 ， 所 以 需要 对 该 记录 执行 回 表 操作 ， 找到 相应 的 聚 簇 索 
引 记录 ， 也 就 是 number 值 为 1 的 聚 簇 索引 记录 ， 然后 为 该 聚 簇 索引 记录 加 一 个 S 
型 正经 记录 锁 。 

步骤 5.。 形成 扫描 区 间 (c 曹操 ', x 苟 或 的 边界 条 件 是 name >'c 曹操 'AND name <=% 荀 或 ， 
很 显然 name 值 为 1 刘备 ' 的 二 级 索引 记录 符合 该 边界 条 件 。 

步骤 6. server 层 继续 判断 name 值 为 4 刘备 ， 的 二 级 索引 记录 对 应 的 聚 簇 索引 记录 是 否 符 
合 条 件 country !=' 吴 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释放 加 在 
该 记录 上 的 锁 。 

步骤 7， 获取 name 值 为 1 刘备 ' 的 二 级 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 name 


值 为 's 孙权 ' 的 二 级 索引 记录 。 


四 ”对 name 值 为 's 孙权 ' 的 二 级 索引 记录 的 加 锁 过 程 进行 分 析 


步骤 2. 
步骤 3， 


步骤 4. 


步骤 $. 


步骤 6. 


步骤 7. 


为 name 值 为 's 孙权 ' 的 二 级 索引 记录 加 S 型 正经 记录 锁 。 

本 语句 的 索引 条 件 下 推 的 条 件 为 name > 'c 曹操 ' AND name <=x 荀 或 '， 很 显然 
name 值 为 's 孙权 ' 的 二 级 索引 记录 符合 索引 条 件 下 推 的 条 件 。 

我 们 读 取 的 是 二 级 索引 记录 ， 所 以 需要 对 该 记录 执行 回 表 操 作 ， 找 到 相应 的 聚 簇 索 
引 记录 ， 也 就 是 number 值 为 20 的 聚 簇 索引 记录 ， 然 后 为 该 聚 秘 索引 记录 加 一 个 S 
型 正经 记录 锁 。 

形成 扫描 区 间 (c 曹操 ,x 荀 或 的 边界 条 件 是 name>' 曹 操 'AND name <=w 苟 或 '， 
很 显然 name 值 为 's 孙权 ' 的 二 级 索引 记录 符合 该 边界 条 件 。 

server 层 继 续 判断 name 值 为 's 孙权 ' 的 二 级 索引 记录 对 应 的 聚 灸 索引 记录 是 否 符合 
条 件 country !=' 吴 '。 很 显然 不 符合 ， 所 以 释放 掉 加 在 该 二 级 索引 记录 以 及 对 应 的 
聚 簇 索 引 记录 上 的 锁 。 

获取 name 值 为 's 孙权 "的 二 级 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 name 
值 为 x 苟 或 ' 的 二 级 索引 记录 。 


四 ”对 name 值 为 x 苟 或 ' 的 二 级 索引 记录 的 加 锁 过 程 进 行 分 析 


步骤 2. 


| 


为 name 值 为 x 荀 或 ' 的 二 级 索引 记录 加 S 型 正经 记录 锁 。 
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步 又 3. 


步骤 4. 


本 语句 的 索引 条 件 下 推 的 条 件 为 name > 'c 曹操 ' AND name <= xX 苟 或 '， 很 显然 
name 值 为 x 苟 或 ' 的 二 级 索引 记录 符合 索引 条 件 下 推 的 条 件 。 

我 们 读 取 的 是 二 级 索引 记录 ， 所 以 需要 对 该 记录 执行 回 表 操 作 ， 找 到 相应 的 聚 簇 索 
引 记录 ， 也 就 是 number 值 为 15 的 聚 秘 索引 记录 ， 人 然后 为 该 聚 冬 索引 记录 加 一 个 S 
型 正经 记录 锁 。 


。 形 成 扫 摘 区 间 (c 曹操 ,x 苟 或 1 的 边界 条 件 是 name > 'c 曹操 'AND name <=x 苟 或 ,， 


很 显然 name 值 为 x 苟 或 ' 的 二 级 索引 记录 符合 该 边界 条 件 。 


. Server 层 继 续 判断 name 值 为 x 苟 或 ' 的 二 级 索引 记录 对 应 的 聚 簇 索引 记录 是 否 符 


合 条 件 country != ' 吴 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释放 加 在 
该 记录 上 的 锁 。 


.获取 name 值 为 x 苟 或 ' 的 二 级 索引 记录 所 在 单 癌 链 表 的 下 一 条 记录 ， 也 就 是 name 


值 为 诸葛 亮 ' 的 二 级 索引 记录 。 


四 ”对 name 值 为 'z 诸 葛 亮 ' 的 二 级 索引 记录 的 加 锁 过 程 进行 分 析 


步骤 2. 
步骤 3. 


步骤 4. 
步骤 $. 
步骤 6. 


为 name 值 为 z 诸 葛 亮 ' 的 二 级 索引 记录 加 S 型 正经 记录 锁 。 

本 语句 的 索引 条 件 下 推 的 条 件 为 name >' 曹操 'AND name <= 并 苟 或 '， 很 显然 
name 值 为 z 诸 锡 亮 ' 的 二 级 索引 记录 不 符合 索引 条 件 下 推 的 条 件 。 由 于 它 还 不 符 
合 边界 条 件 ， 所 以 就 不 再 去 找 当前 记录 的 下 一 条 记录 了 。 因 此 跳 过 步骤 4 和 步骤 $， 
直接 癌 server 层 报告 “查询 完毕 ”信息 。 

本 步骤 被 跳 过 。 

本 步骤 被 跳 过 。 

server 层 收 到 存储 引擎 层 报告 的 “查询 完毕 ”信息 ， 结 束 查 询 。 


综 上 所 述 ， 在 隔离 级 别 不 大 于 READ COMMITTED 的 情况 下 ， 该 语句 在 执行 过 程 中 的 加 
锁 效 果 如 图 22-24 所 示 。 

需要 注意 的 是 ， 对 于 name 值 为 's 孙权 ' 的 二 级 索引 记录 ， 以 及 number 值 为 20 的 聚 簇 索 
引 记 录 来 说 ， 都 是 先 加 锁 ， 后 释放 锁 。 另 外 ，name 值 为 z 诸葛 亮 ' 的 二 级 索引 记录 在 步骤 3 
中 被 判断 为 不 符合 边界 条 件 ， 而 且 该 步骤 并 不 会 释放 加 在 该 记录 上 的 锁 ， 而 是 直接 向 server 层 
报告 “查询 完毕 ”信息 ， 因 此 导致 整个 语句 在 执行 结束 后 也 不 会 释放 加 在 name 值 为 诸葛亮 ' 
的 二 级 索引 记录 上 的 锁 。 

我 们 再 来 分 析 该 语句 在 隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 过 程 。 

时 对 name 值 为 上 刘备 ' 的 二 级 索引 记录 的 加 锁 过 程 进行 分 析 


步骤 工 . 


步骤 2. 
步骤 3. 


步骤 4. 


读 取 在 (c 曹 操 ,x 敬 或] 扫描 区 间 的 第 一 条 二 级 索引 记录 ， 也 就 是 name 值 为 1 刘备 ， 
的 二 级 索引 记录 。 

为 name 值 为 1 刘备 ' 的 二 级 索引 记录 加 S 型 next-key 锁 。 

本 语句 的 索引 条 件 下 推 的 条 件 为 name > 'c 曹操 ' AND name <= x 苟 或 '"， 很 显然 
name 值 为 1 刘备 ' 的 二 级 索引 记录 符合 索引 条 件 下 推 的 条 件 。 

由 于 读 取 的 是 二 级 索引 记录 ， 所 以 需要 对 该 记录 执行 回 表 操 作 ， 找 到 相应 的 聚 簇 索 
引 记 录 ， 也 就 是 number 值 为 1 的 聚 簇 索引 记录 ， 然 后 为 该 聚 簇 索引 记录 加 一 个 S 
型 正经 记录 锁 。 











22.4 ”语句 加 锁 分 析 。” 433 





idx_name 索 引 示 意图 : 
namec 列 | : 


number 列 | : 











聚 冬 索引 示意 图 : 





步骤 5 形成 扫描 区 间 (c 曹操 ,x 苟 或 1 的 边界 条 件 是 name>'e 曹操 'AND name <='x 苟 或 '， 
很 显然 name 值 为 1 刘备 ' 的 二 级 索 引 记 录 符 合 该 边界 条 件 。 
步 又 6，server 层 继 续 判 断 name 值 为 4 刘备 ， 的 二 级 索引 记录 对 应 的 聚 簇 索引 记录 是 否 符合 
/ 条 件 country != ' 吴 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释放 加 在 该 记 
录 上 的 锁 。 
步骤 7， 获取 name 值 为 1 刘备 ' 的 二 级 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 name 
值 为 's 孙权 ' 的 二 级 索引 记录 。 
里 对 name 值 为 's 孙权 ' 的 二 级 索引 记录 的 加 锁 过 程 进行 分 析 


图 22-24 ”隔离 级 别 不 大 于 READ COMMITTED 时 的 加 锁 效 果 示意 图 


步骤 2， 为 name 值 为 's 孙权 ' 的 二 级 索引 记录 加 S 型 next-key 锁 。 
步骤 3， 本 语句 的 索引 条 件 下 推 的 条 件 为 name > 曹操 'AND name <= x 荀 或 '， 很 显然 
name 值 为 's 孙权 ' 的 二 级 索引 记录 符合 索引 条 件 下 推 的 条 件 。 
步骤 4. 由 于 读 取 的 是 二 级 索引 记录 ， 所 以 需要 对 该 记录 执行 回 表 操 作 ， 找 到 相应 的 聚 饿 卖 
引 记 录 ， 也 就 是 number 值 为 20 的 聚焦 索引 记录 ， 然后 为 该 聚 能 索引 记录 加 一 个 S 
型 正经 记录 锁 ， 
步骤 $， 形 成 扫描 区 间 (c 曹操 ' xx 苟 或 的 边界 条 件 是 name >'c 曹操 'AND name <= wx 苟 或 '， 
很 显然 name 值 为 's 孙权 ' 的 二 级 索 引 记 录 符 合 该 边界 条 件 。 
、 步骤 6.server 层 继 续 判 断 name 值 为 's 孙权 ' 的 二 级 索引 记录 对 应 的 聚 簇 索引 记录 是 
侣 符合 条 件 country !=' 吴 '。 很 显然 不 符合 ， 但 是 由 于 现在 的 隔离 级 别 不 小 于 
REPEATABLE READ， 所 以 不 会 释放 掉 加 在 该 记录 上 的 锁 。 


步骤 7 获取 name 值 为 's 孙权 ' 的 二 级 索引 记录 所 在 单 向 链表 的 下 一 条 记录 ， 也 就 是 name 
| 值 为 x 荀 或 ' 的 二 级 索引 记录 。 


| is， 
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四 ”对 name 值 为 xx 苟 或 ' 的 二 级 索引 记录 的 加 锁 过 程 进行 分 析 

步骤 2. 为 name 值 为 x 苟 或 ' 的 二 级 索引 记录 加 S 型 next-key 锁 。 

步骤 3. 本 语句 的 索引 条 件 下 推 的 条 件 为 name > 'c 曹操 ' AND name <= x 苟 或 '， 很 显然 
name 值 为 x 区 或 ' 的 二 级 索引 记录 符合 索引 条 件 下 推 的 条 件 。 

步骤 4. 由 于 读 取 的 是 二 级 索引 记录 ， 所 以 需要 对 该 记录 执行 回 表 操 作 ， 找 到 相应 的 聚 簇 索 
引 记录 ， 也 就 是 number 值 为 15 的 聚 簇 索引 记录 ， 然 后 为 该 聚 簇 索 引 记 录 加 一 个 S 
型 正经 记录 锁 。 

步骤 5， 形 成 扫描 区 间 ('c 曹操 ', x 苟 或 1 的 边界 条 件 是 name>'c 曹操 'AND name <= xX 甸 或 '， 
很 显然 name 值 为 x 荀 或 ' 的 二 级 索引 记录 符合 该 边界 条 件 。 

步骤 6。server 层 继续 判断 name 值 为 % 苟 或 ' 的 二 级 索引 记录 对 应 的 聚 簇 索 引 记 录 是 否 符 
合 条 件 country != ' 吴 '。 很 显然 符合 ， 所 以 将 其 发 送 到 客户 端 ， 并 且 不 释放 加 在 该 
记录 上 的 锁 。 

步骤 7. 获取 name 值 为 x 苟 或 ' 的 二 级 索引 记录 所 在 单 问 链表 的 下 一 条 记录 ， 也 就 是 name 
值 为 诸葛 亮 ' 的 二 级 索引 记录 。 

到 对 name 值 为 'z 诸 葛 亮 ' 的 二 级 索引 记录 的 加 锁 过 程 进 行 分 析 

步骤 2. 为 name 值 为 z 诸 葛 亮 ' 的 二 级 索引 记录 加 S 型 next-key 锁 。 

步骤 3， 本 语句 的 索引 条 件 下 推 的 条 件 为 name > 'c 曹操 'AND name <= x 有 或 '， 很 显然 
name 值 为 之 诸葛 亮 ' 的 二 级 索引 记录 不 符合 索引 条 件 下 推 的 条 件 。 由 于 它 还 不 符 
合 边界 条 件 ， 所 以 就 不 再 去 找 当前 记录 的 下 一 条 记录 了 。 因 此 直接 跳 过 步骤 4 和 $， 
直接 向 server 层 报告 “查询 完毕 ”信息 。 

步骤 4， 本 步骤 被 跳 过 。 

步骤 $S， 本 步骤 被 跳 过 。 

步骤 6. server 层 收 到 存储 引擎 层 报告 的 “查询 完毕 ”信息 ， 结 束 查 询 。 

综 上 所 述 ， 在 隔离 级 别 不 小 于 REPEATABLE READ 的 情况 下 ， 该 语句 在 执行 过 程 中 的 加 


锁 效果 如 图 22-25 所 示 。 
idx_name 索 引 示 意图 : 








聚 镶 索 引 示意 图 : ; 
四 @,” ©@ 
EF 
number 列 : ce 
St al 
Wel 
name 列 : x 区 或 
rin 
country 列 : ”国电 :be 


图 22-25 隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效 果 示 意图 
在 图 22-25 中 ， 在 隔离 级 别 不 小 于 REPEATABLE READ 的 情况 下 ， 该 语句 对 name 值 为 1 
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刘 备 '、's 孙权 '、x 荀 或 '、 zz 诸葛亮 ' 的 二 级 索引 记录 都 加 了 S 型 next-key 锁 ， 对 number 值 为 1、 
15、20 的 聚 簇 索引 记录 加 了 S 型 正经 记录 锁 。 


不 知道 大 家 是 否 注 意 到 ， 对 于 锁定 读 的 语 他 采 说 于 天 某国 本 


> 
-4 -4 


4。 全 引 全 件 下 推 中 的 条 件 ， 即 使 当前 事务 的 天 离 级 别 不 大 于 READ COMMITTBD， 也 不 


小 贴 十 ”拥有 释放 锁 的 权利 ， 因 此 只 能 在 server 层 进行 释 歼 ， 另 外 ， 索 引 条 
MySQL 5.6 中 引入 的 ， 可 以 通过 SET optimizer switch=index condition puspd wn=off, 
“人 于 动 伟 用 这 个 特性 ， 然 后 大 家 可 以 再 思考 一 下 上 述 实例 中 应 该 怎 痒 对 沁 录 关 绩 于 


和 
2 一 中 








» 4 a 2 
Pw A 





上 文 的 两 个 实例 都 是 以 SELECT ... LOCK IN SHARE MODE 语句 为 例 来 介绍 如 何 为 记录 
加 锁 的 。SELECT ... FOR UPDATE 语句 的 加 锁 过 程 与 SELECT ... LOCK IN SHARE MODE 语 
名 类 似 ， 只 不 过 为 记录 加 的 是 义 锁 。 

对 于 UPDATE 语句 来 说 ， 加 锁 方式 与 SELECT .FOR UPDATE 语句 类 似 。 不 过 ， 如 果 更 


新 了 二 级 索引 列 ， 那么 所 有 被 更 新 的 二 级 索引 记录 在 更 新 之 前 都 需要 加 X 型 正经 记录 锁 。 比 
如 下 面 这 个 语句 : 


UPDATE hero SET name = 'cao 曹 操 ' where number > 1 AND number <= 15 AND country = ' 魏 '; 
自 先 看 一 下 这 个 语句 的 执行 计划 ; 


mysql> explain UPDATE hero SET name = "cao 曹操 ' where nunber > 1 AND nunber <= 15 AND country = ' 瑙 '; 
下 一 一 一 一 全 一 一 一 一 一 一 一 一 -一 一 一 上 一 ~ 一 一 一 一下 一 一 一 一 一 一 一 一 一 一 一 和 一 一 一 一 一 一 一 一 一 一 一 4 一 一 一 一 一 一 一 一 十 








| id | select type | table | Partitions | type | possible keys | key | key len | ref | rows | ftered | Extra | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 4—- 一 一 一 一 一 A 
| 1 | UPDATE | hero | NULL | range | PRIMARY | PRIMARY | 4 | const | 3 | 100.00 | Using where | 
4 让 一 一 一 一 一 一 一 一 一 一 一 4 一 一 一 一 一 一 了 一 一 一 一 一 一 一 一 一 —— 





1 row in set (0.02 sec) 


执行 计划 显示 ， 这 个 查询 语句 在 执行 时 ， 会 扫描 聚焦 索引 中 (1, 15] 扫描 区 间 中 的 记录 。 
但 是 由 于 更 新 了 name 列 ， 而 name 列 义 是 一 个 索引 列 ， 所 以 在 更 新 前 也 需要 为 idx _ name 二 级 
索引 中 对 应 的 记录 加 锁 。 在 隔离 级 别 不 大 于 READ COMMITTED 时 ， 该 语句 在 执行 时 的 加 锁 
情况 如 图 22-26 所 示 。 


idx_name 案 引 示 意图 : 





聚 儿 案 引 示 意图 : 


number 列 | : 


name 列 | : 


country 列 : 院 要 | 3 


图 22-26 ”隔离 级 别 不 大 于 READ COMMITTED 时 的 加 锁 效 果 示 意图 
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在 图 22-26 中 ， 对 于 number 值 为 3 的 聚 簇 索引 记录 来 说 ， 由 于 它 不 符合 country=- 魏 ' 这 
个 条 件 ， 所 以 对 该 记录 先 加 锁 ， 后 释放 锁 。 对 于 number 值 为 20 的 聚 簇 索 引 记 录 来 说 ， 由 于 
它 不 符合 边界 条 件 ， 所 以 对 该 记录 先 加 锁 ， 后 释放 锁 。 另 外 需要 特别 注意 的 是 ， 由 于 name 值 
为 "曹操 '、x 苟 或 ' 的 二 级 索引 记录 也 会 被 更 新 ， 所 以 也 需要 对 它们 加 锁 。 

再 看 一 下 在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情 况 ， 如 图 22-27 
所 示 。 大 家 可 以 自行 分 析 一 下 为 什么 会 有 这 样 的 加 锁 效果 ， 这 里 就 不 展开 介绍 了 。 


idx_name 案 引 示意 图 : 





聚 铸 案 引 示意 图 : 





图 22-27 隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效果 示意 图 


对 于 DELETE 语句 来 说 ， 加 锁 方式 与 SELECT ... FOR UPDATE 语句 类 似 ， 只 不 过 如 果 表 
中 包含 二 级 索引 ， 那 么 二 级 索引 记录 在 被 删除 之 前 都 需要 加 XX 型 正经 记录 锁 。 具 体例 子 就 不 
再 列举 了 ， 大 家 可 以 参照 UPDATE 语句 的 执行 过 程 。 





在 介绍 完了 一 般 情况 下 锁定 读 的 加 锁 过 程 后 ， 下 面 该 介绍 一 些 比较 特殊 的 情况 了 。 

e@e 当 隔 离 级 别 不 大 于 READ COMMITTED 时 ， 如 果 匹 配 模 式 为 精确 匹配 ， 则 不 会 为 扫描 
区 间 后 面 的 下 一 条 记录 加 锁 。 

比如 : 


SELECT * FROM hero WHERE name = 'c 曹 操 ' FOR UPDRATE; 


接 下 来 看 一 下 这 条 语句 的 执行 计划 : 


mysal> EXPLATN SELECT * FROM hero WHERE name = 'c 曹 所 FOR UPDATE; 

ne OO EO 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 
4— 一 -一 + 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 + 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 二 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 十 
| 1 | SIMPLE | hero | NULL | ref | idx_ name | idx name | 303 1 const | i111 100.00 | NOLD | 
4 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 全 一 一 一 一 一 一 二 -一 一 一 + 一- 一 -一 一 一 一 -+ 一 一 一 一 -一 +- 一 一 一 一 一 一 二 一 -+ 一 一 一 一 4- 一 ~-+---- -一 一 
1 row in set, 1 warning (0.02 sec) 





一 一 个 一 一 一 























4 


22.4 语句 加 锁 分 析 。” 437 





执行 计划 显示 ， 查 询 优化 器 决定 使 用 二 级 索引 idx_name， 需 要 扫描 单 点 扫描 区 间 ['c 曹操 ' 
曹操] 中 的 二 级 索引 记录 。 在 读 取 完 name 值 为 曹操 ' 的 二 级 索引 记录 后 ， 获 取 到 下 一 条 
二 级 索引 记录 ， 也 就 是 name 值 为 1 刘备 ' 的 二 级 索引 记录 。 由 于 这 里 的 匹配 模式 为 精确 匹配 ， 
因此 在 存储 引擎 内 部 就 判断 出 该 记录 不 符合 精确 匹配 的 条 件 ， 所 以 直接 向 server 层 报 告 “查询 
完毕 ”的 信息 ， 而 不 再 是 先 给 该 记录 加 锁 ， 然后 再 交 给 server 层 判 断 是 否 要 释放 锁 。 

所 以 在 隔离 级 别 不 大 于 READ COMMITTED 时 ， 该 语句 执行 时 的 加 锁 情况 如 图 22-28 所 示 。 






idx_name 索 引 示 意图 : 
一 三 
as » | | 
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图 22-28 ”隔离 级 别 不 大 于 READ COMMITTED 时 的 加 锁 效果 示意 图 


和 当 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 如 果 匹 配 模式 为 精确 匹配 ， 则 会 为 扫描 
区 间 后 面 的 下 一 条 记录 加 gap 锁 。 
比如 : 


SELECT * FROM hero WHERE name = 'c 草 操 ' FOR UPDATE; 


这 条 语句 的 执行 计划 刚 在 前 文 出 现 过 。 执 行 计划 显示 ， 得 询 优化 器 决定 使 用 二 级 索引 idx_ 
name， 和 需要 扫描 单 点 扫描 区 间 ['c 曹操 , 'c 曹操 1] 中 的 二 级 索引 记录 。 在 读 取 完 name 值 为 'c 
曹操 ' 的 二 级 索引 记录 后 ， 获 取 到 下 一 条 二 级 索引 记录 ， 也 就 是 name 值 为 1 刘备 ' 的 二 级 索引 
记录 。 由 于 这 里 的 匹配 模式 为 精确 匹配 ， 因此 在 存储 引擎 内 部 就 判断 出 该 记录 不 符合 精确 匹配 
的 条 件 ， 所 以 向 该 记录 加 一 个 gap 锁 ， 之 后 向 server 层 报 告 “查询 完毕 ”的 信息 。 

所 以 在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情况 如 图 22-29 所 示 。 

有 时 ， 扫 描 区 间 中 没有 记录 ， 那么 也 要 为 扫描 区 间 后 面 的 下 一 条 记录 加 一 个 gap 锁 。 比 如 : 


SELECT * FROM hero WHERE name = 'g 关 羽 ' FOR UPDATE; 
接 下 来 看 一 下 这 条 语句 的 执行 计划 ; 


mysql> EXPIAIN SELECT * FROM hero WHERE name = !g 关 羽 ! FOR UPDATE; 








1 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 +4— 一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 二 -一 一 一 OD -+ 一 一 一 一 一 一 一 一 一 + 一 一 -一 一 一 -十 
| id | select type | table | partitions | type | possible keys | key | key_len | ref | rows | filtered | Extra | 
一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 ~ 二 -一 ~ 一 一 一 一 A 
| 1 | SIMPIE | hero | NULL | ref | idx name | idx name | 303 | const | 1 | 100.00 | NULL | 
本 一 下 一 一 一 + 一 一 + 一 一 一 一 一 一 个 一 一 一 一 一 一 一 一 一 上 一 一 一 一 一 一 一 个 








1 row in set, 1 warning (5.91 sec) 





一， 一 一 
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idx_name 索 引 示 意图 : 





图 22-29 ”隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效果 示意 图 


执行 计划 显示 ， 查 询 优化 器 决定 使 用 二 级 索引 idx_name， 需 要 扫描 单 点 扫描 区 间 [eg 关羽 ，， 
gg 关羽] 中 的 二 级 索引 记录 。 遗 憾 的 是 不 存在 name 值 为 'g 关羽 ' 的 二 级 索引 记录 ， 所 以 需要 
为 [g 关羽 ', 'g 关羽 扫描 区 间 后 面 的 下 一 条 记录 ， 也 就 是 name 值 为 1 刘备 ' 的 记录 加 gap 锁 ， 
目的 是 为 了 防止 别 的 记录 插入 name 值 在 ('c 曹操 ', 1 刘备 ') 之 间 的 二 级 索引 记录 。 

所 以 在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情况 如 图 22-30 所 示 。 


idx_name 索 引 示 意图 : 
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图 22-30 ”隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效 果 示 意图 





e 当 隔 离 级别 不 小 于 REPEATABLE READ 时 ， 如 果 匹 配 模 式 不 是 精确 匹配 ， 并 且 没 有 
找到 匹配 的 记录 ， 则 会 为 该 扫描 区 间 后 面 的 下 一 条 记录 加 next-key 锁 。 
比如 : 


SELECT * FROM hero WHERE name > !G! AND name < '‘'1' FOR UPDRTE; 


接 下 来 看 一 下 这 条 语句 的 执行 计划 : 


mysql> EXPLAIN SELECT « FROM hero WHERE name > ‘d' AND name < ‘1' FOR UPDATE; 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 志 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 亏 一 一 一 一 一 一 一 一 一 








| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 
+ 一 一 人 一 -一 -一 一 一 一 一 一 -一 个 -一 -~+-- 一 一 下 一 一 一 一 一 一 一 一 一 一 -一 一 4 一 一 -一 一 一 一 -一 一 人 一 一 一 人 一 一 一 一 一 -一 人 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 + 
| 1 | SIMPLE | hero | NULL | range | idx_ name | idx name | 303 | NULL | 1 | 100.00 | Using index condition | 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 -下 一 一 一 一 一 一 一 -一 -一 -一 





1 row in set, 1 warning (0.05 sec) 
执行 计划 显示 ， 查 询 优 化 器 决定 使 用 二 级 索引 idx_name， 需 要 扫描 扫描 区 间 ('d', '1") 中 的 
二 级 索引 记录 。 遗 憾 的 是 不 存在 name 值 在 ('d', 1') 中 的 二 级 索引 记录 ， 所 以 需要 为 (d', 小 扫描 
区 间 后 面 的 下 一 条 记录 ， 也 就 是 name 值 为 1 刘备 ' 的 记录 加 next-key 锁 。 














22.4 语句 加 锁 分 析 439 





所 以 在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情 况 如 图 22.31 所 示 。 





ldx_name 索 引 示 意图 : 
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图 22-31 隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效 果 示 意图 


e 当 隔 离 级 别 不 小 于 REPEATABLE READ 时 ， 如 果 使 用 的 是 聚焦 索引， 并 且 扫 描 的 扫 
描 区 间 是 左 闭 区 间 ， 而 且 定 位 到 的 第 一 条 聚焦 索引 记录 的 number 值 正好 与 扫描 区 间 中 
最 小 的 值 相同 ， 那么 会 为 该 聚 簇 索引 记录 加 正经 记录 锁 。 

比如 : 


SELECT * FROM hero WHERE number >= 8 FOR UPDATE; 


接 下 来 看 一 下 这 条 语句 的 执行 计划 : 


myYs91> EXPLAIN SELECT * FROM hero WHERE number >= 8 FOR UPDATE; 


本 








一 一 一 一 一 下 一 一 一 一 一 一 一 一 一 个 一 一 一 一 一 一 


下 
| id | select type | table | Partitions | type | possible keys | key | key_len | ref | rows | filtered | Extra | 
直 一 一 一 一 个 一 ~ 一 一 一 一 一 一 一 一 一 一 个 一 一 一 一 ~ 一 -了 一 一 一 tt 
| 1 | SIMPLE | hero | NULL | range | PRIMARY | PRIMARY | 4 | NULL | 3 | 100.00 | Using where | 
EE EE ee ee 





1 row in set, 1 warning (0.01 Sec) 


执行 计划 显示 ， 查 询 优化 器 决定 使 用 聚 簇 索引 需要 扫描 扫描 区 间 [8, + oo ) 中 的 聚 簇 索 
引 记录 。 由 于 [8, +  ) 是 左 闭 区 间 ， 而 且 我 们 的 表 中 正好 存在 一 条 number 值 为 8 的 聚 筷 索引 
记录 ， 所 以 会 对 这 条 number 值 为 8 的 聚 簇 索引 记录 只 添加 正经 记录 锁 。 

所 以 在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情 况 如 图 22-32 所 示 。 


聚 饶 索 引 示意 图 : 
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图 22-32 ”隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效 果 示 意图 


在 图 22-32 中 可 以 看 到 ， 为 number 值 为 8 的 聚 簇 索 引 记录 加 了 正经 记录 锁 ， 为 扫描 到 的 
其 他 记录 加 了 next-key 锁 。 另 外 需要 注意 的 一 点 是 ， 该 语句 还 为 Supremum 记录 加 了 next-key 
锁 ， 这 样 就 可 以 阻止 其 他 语句 插入 number 值 在 (20, + oo ) 间 的 记录 了 。 

为 什么 会 出 现 这 种 特殊 情况 呢 ? 这 主要 是 为 了 避免 “误伤 ”。 由 于 表 中 不 可 能 出 现 主键 值 
相同 的 记录 ， 别 的 事务 肯定 不 会 再 插入 number 值 等 于 8 的 聚 簇 索引 记录 ， 所 以 我 们 仅仅 需要 
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在 number 值 为 8 的 聚 簇 索引 记录 上 加 一 个 正经 记录 锁 就 好 ， 而 不 必要 为 其 加 一 个 next-key 锁 。 
如 果 在 number 值 为 8 的 聚 簇 索引 记录 上 加 了 next-key 锁 ， 这 就 阻止 了 别 的 事务 插入 number 
值 在 (3, 8) 中 的 聚 簇 索引 记录 ， 显 然 这 是 不 必要 的 。 
e 无 论 是 哪个 隔离 级 别 ， 只 要 是 唯一 性 搜索 ， 并 且 读 取 的 记录 没有 被 标记 为 “已 删除 ” 
(记录 头 信息 中 的 deleted flag 为 1) ， 就 为 读 取 到 的 记录 加 正经 记录 锁 。 
比如 : 


SELECT * FROM hero WHERE number = 8 FOR UPDATE; 


接 下 来 看 一 下 这 条 语句 的 执行 计划 : 


mysql> EXPLAIN SELECT * PROM hero WHERE number = 8 FOR UPDATE; 

















+—— 一 +- 一 -一 一 -一 一 一 一 -一 -一 -+ 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 +4 一 一 一 一 一 一 1 
| id | select type | table | partitions | type | possible keys | key | key len | ref | rows | filtered | Extra | 
+ 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 全 
| 1 | SIMPLE | hero | NULL | const | PRIMARY | PRIMARY | 4 | const | 1 1 100.00 | NULL | 
一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 + 一 -一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 + 一 一 一 一 一 一 + 











1 row in set, 1 warning (0.02 sec) 


执行 计划 显示 ， 查 询 优 化 器 决定 使 用 聚 簇 索引， 需要 扫描 扫描 区 间 [8, 8] 中 的 聚 簇 索引 记 
录 。 由 于 是 唯一 性 搜索 ， 所 以 只 需要 为 number 值 为 8 的 聚 矶 索引 记录 添加 正经 记录 锁 。 在 隔 
离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情 况 如 图 22-33 所 示 。 





图 22-33 ”隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效 果 示 意图 


e 我 们 在 扫描 茶 个 扫描 区 间 中 的 记录 时 ， 一 般 都 是 按照 从 左 到 右 的 顺序 进行 扫描 ， 但 是 有 些 
情况 下 需要 从 右 到 左 进行 扫描 。 那 么 当 隔 离 级 别 不 小 于 REPEATABLE READ， 并 且 按 照 从  ， 
右 到 左 的 顺序 扫描 扫描 区 间 中 的 记录 时 ， 会 给 匹配 到 的 第 一 条 记录 的 下 一 条 记录 加 gap 锁 。 

比如 : 


SELECT * FROM hero FORCE INDEX (idx name) WHERE name > 'c 曹 操 ' AND name <= 'x 苟 或 ' 
AND country != ' 吴 ! ORDER BY name DESC FOR UPDATE; 


接 下 来 看 一 下 这 条 语句 的 执行 计划 : 


Ne FROM hero FORCE INDEX (idx_name) WHERE name > 'c 曹 操 ' AND name <= 'x 知 践 ， AND country != li 
一 rer 


聚 铬 索引 示意 图 
ame | 1 | 3 Ms» | | 


$+ -一 ----- 一 -一 
44 | select_ type | tole | Portitions | type | Possibie Jeys | ey | key en | ref | rows | taered | Extra 
一 


< 一 一 一 名 
| 1 1 SIMPIE | hero | NILL | range | icdx name | idx name | 303 | NULL | 了 人 80.00 | eing index onditions Using where | 








1 row in set, 1 warning (0.02 sec) 


执行 计划 显示 ， 查 询 优 化 器 决定 使 用 二 级 索引 idx_name， 需 要 扫描 扫描 区 间 ('c 曹操 ','x 
苟 或 '] 中 的 二 级 索引 记录 。 由 于 语句 中 包含 ORDER BY name DESC， 也 就 是 需要 按照 从 大 到 
小 的 顺序 对 查询 结果 进行 排序 ， 那 么 我 们 可 以 在 扫描 扫描 区 间 ('c 曹操 ', x 荀 或 1 中 的 二 级 索 
引 记 录 时 ， 直 接 定位 到 该 扫描 区 间 的 最 后 一 条 记录 ， 也 就 是 name 值 为 x 萄 或 ' 的 二 级 索引 记 
录 ， 然 后 按照 从 右 到 左 的 顺序 进行 扫描 即 可 。 不 过 在 定位 到 name 值 为 x 苟 或 ' 的 二 级 索引 记 
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录 后 ， 需要 对 该 记录 所 在 单 向 链表 的 下 一 条 二 级 索引 记录 ， 也 就 是 name 值 为 zz 诸葛亮 ' 的 二 
级 索引 记录 加 一 个 gap 锁 ( 目 的 是 防止 其 他 事务 插入 name 值 等 于 x 苟 或 ' 的 新 记录 )。 
在 隔离 级 别 不 小 于 REPEATABLE READ 时 ， 该 语句 执行 时 的 加 锁 情 况 如 图 22.34 所 示 。 


idx_name 索 引 示 意图 : 





聚 灸 索 引 示意 图 : 





22-34 ”隔离 级 别 不 小 于 REPEATABLE READ 时 的 加 锁 效果 示意 图 


前 文 先 分 析 了 一 般 情 况 下 在 语句 执行 过 程 中 如 何 对 记录 进行 加 锁 ， 义 分 析 了 特殊 情况 下 在 
语句 执行 过 程 中 如 何 对 记录 进行 加 锁 ， 希望 大 家 不 要 被 这 些 繁琐 的 细节 搞 晕 了 。 其 实 加 锁 只 是 
为 了 避免 并 发 事务 执行 过 程 中 可 能 出 现 的 脏 写 、 脏 读 、 人 不 可 重复 读 、 幻 读 等 现象 (MVCC 算 
是 男 一 种 解决 脏 读 、 不 可 重复 读 、 幻 读 这 些 问 题 的 方案 )。 因为 不 同情 景 下 要 避免 的 现象 不 一 
样 ， 所 以 加 的 锁 也 不 一 样 。 前 文 介绍 的 一 些 加 锁 特殊 情况 要 么 是 为 了 避免 出 现 幻 读 现象 ， 要 人 么 
征 根据 MySQL 的 一 些 固有 特点 〈 比 如 记录 的 主键 值 不 重复 ) 将 部 分 next-key 锁 蔡 换 为 正经 记 
条 锁 ， 从 而 尽量 减少 对 其 他 事务 的 影响 。 


22.4.3” 半 一 致 性 读 的 语句 


半 一 致 性 读 (Semi-Consistent Read) 是 一 种 夹 在 一 致 性 读 和 锁定 读 之 间 的 读 取 方 式 。 当 隔 
离 级 别 不 大 于 READ COMMITTED 且 执 行 UPDATE 语句 时 将 使 用 半 一 致 性 读 。 所 谓 半 一 致 性 
读 ， 就 是 当 UPDATE 语句 读 取 到 已 经 被 其 他 事务 加 了 X 锁 的 记录 时 ，InnoDB 会 将 该 记录 的 最 
新 提交 版 本 读 出 来 ， 然 后 判断 该 版 本 是 否 与 UPDATE 语句 中 的 搜索 条 件 相 匹配 。 如 果 不 匹 配 ， 
则 不 对 该 记录 加 锁 ， 从 而 跳 到 下 一 条 记录 ;如果 匹配 ， 则 再 次 读 取 该 记录 并 对 其 进行 加 锁 。 这 
样 处 理 只 是 为 了 让 UPDATE 语句 尽量 少 被 别 的 语句 阻塞 。 

假如 事务 T1 的 隔离 级 别 为 READ COMMITTED，T1 执行 了 下 面 这 条 语句 : 





SELECT * FROM hero WHERE number = 8 FOR UPDATE; 


该 语句 在 执行 时 对 number 值 为 8 的 聚 簇 索引 记录 加 了 和 型 正经 记录 锁 ， 如 图 22-35 所 示 。 
此 时 隔离 级 别 也 为 READ COMMITTED 的 事务 12 执行 了 如 下 语句 : 


UPDATE hero SET name = 'cao 曹 操 ' WHERE number >= 8 AND number < 20 AND country != ' 魏 '; 
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育儿 索引 示意 图 : 





图 22-35 nt X 5 型 正经 记录 钙 


该 语句 在 执行 时 需要 依次 获取 number 值 为 8、15、20 的 聚 簇 索引 记录 的 XX 型 正经 记录 
锁 (其 中 number 值 为 20 的 记录 的 锁 会 稍 后 释放 )。 由 于 Tl 已 经 获取 了 number 值 为 8 的 聚 
簇 索引 记录 的 X 型 正经 记录 锁 ， 按 理 说 此 时 事务 T2 应 该 由 于 获取 不 到 number 值 为 8 的 聚 簇 
索引 记录 的 X 型 正经 记录 锁 而 阻塞 。 但 是 由 于 进行 的 是 半 一 致 性 读 ， 所 以 存储 引擎 会 先 获 取 
number 值 为 8 的 聚 簇 索引 记录 最 新 提交 的 版 本 并 返回 给 server 层 。 该 版 本 的 country 值 为 ' 魏 ， 
很 显然 不 符合 country != ' 魏 ' 的 条 件 ， 所 以 server 层 决 定 放 弃 获 取 number 值 为 8 的 聚 簇 索引 
记录 上 的 X 型 正经 记录 锁 ， 转 而 让 存储 引擎 读 取 下 一 条 记录 。 


22.4.4 _ INSERT 语句 


前 文 说 过 ，INSERT 语句 在 一 般 情 况 下 不 需要 在 内 存 中 生成 锁 结 构 ， 并 单纯 依靠 隐 式 锁 保 
护 插 入 的 记录 。 不 过 当前 事务 在 插入 一 条 记录 前 ， 需 要 先 定位 到 该 记录 在 B+ 树 中 的 位 置 。 如 
果 该 位 置 的 下 一 条 记录 已 经 被 加 了 gap 锁 (next-key 锁 也 包含 gap 锁 )， 那 么 当前 事务 会 为 该 
记录 加 上 一 种 类 型 为 插入 意向 锁 的 锁 ， 并 且 事 务 进入 等 待 状态 。 关 于 插入 意向 锁 已 经 在 前 面 详 
细 啼 四 过 了 ， 这 里 就 不 多 说 了 。 

下 面 看 一 下 在 执行 INSERT 语句 时 ， 会 在 内 存 中 生成 锁 结构 的 两 种 特殊 情况 。 


1. 遇 到 重复 键 ( duplicate key ) 

在 插入 一 条 新 记录 时 ， 首 先 要 做 的 其 实 是 确定 这 条 新 记录 应 该 插入 到 B+ 树 的 哪个 位 
置 。 如 果 在 确定 位 置 时 发 现 现 有 记录 的 主键 或 者 唯一 二 级 索引 列 与 待 插入 记录 的 主键 或 者 
唯一 二 级 索引 列 相同 〈 不 过 可 以 有 多 条 记录 的 唯一 二 级 索引 列 的 值 同时 为 NULL， 这 里 不 
考虑 这 种 情况 )， 此 时 会 报错 。 比 如 我 们 插入 一 条 新 记录 ， 而 且 该 记录 的 主键 值 已 经 包含 
在 hero 表 中 : 


mysgql> BEGIN; 
Query OK, 0 rows affected (0.01 sec) 


mysql> INSERT INTO hero VALUES (20，'g 关 羽 '，' 罚 '); 
ERROR 1062 (23000): Duplicate entry '20' for key 'PRIMARY' 


当然 ， 在 生成 报错 信息 前 ， 其 实 还 需要 做 一 件 非常 重要 的 事情 一 一 对 聚 簇 索引 中 number 
值 为 20 的 记录 加 S 锁 。 不 过 加 的 锁 的 具体 类 型 在 不 同 隔离 级 别 下 是 不 一 样 的 : 

e 当 隔 离 级 别 不 大 于 READ UNCOMMITTED 时 ， 加 的 是 S 型 正经 记录 锁 ， 

e 当 隔 离 级 别 不 小 于 REPEATABLE READ 时 ， 加 的 是 S 型 next-key 锁 。 

如 果 是 唯一 二 级 索引 列 的 值 重 复 ， 比 如 我 们 再 把 普通 二 级 索引 idx_ name 改 为 唯一 二 级 索 


II 
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5| uk name : 


ALTER TABLE hero DROP INDEX idx name, ADD UNIOUE KEY uk name (name):; 
然后 执行 : 


mysql> BEGIN; 
Query OK, 0 rows affected (0.01 sec) 


mysql> INSERT INTO hero VALUES (30，'c 曹 操 '， “3 
ERROR 1062 (23000) : Duplicate entry 'c 曹 操 ' for key 'uk_name' 


很 显然 ，hero 表 之 前 就 包含 name 值 为 'c 曹操 ' 的 记录 。 如 果 再 插入 一 条 name 值 为 'c 曹 
操 ' 的 新 记录 ， 虽 然 插 入 聚 秘 索 引 记录 没 问题 ， 但 是 在 插入 uk_name 唯一 二 级 索引 记录 时 便 会 
报错 。 个 也 在 报错 之 前 还 是 会 为 已 经 存在 的 那 条 name 值 为 曹操 ,的 二 级 索引 记录 加 一 个 S 锁 . 
需要 注意 的 是 ， 无 论 是 哪个 隔离 级 别 ， 如 果 在 插入 新 记录 时 遇 到 唯一 二 级 索引 列 重复 ， 都 会 对 
己 经 在 B+ 树 中 的 那 条 唯一 二 级 索引 记录 加 next-key 锁 。 


,i ”和 较 理 说 在 READ UNCOMMITTED/READ COMMITTED 隔离 级 别 下， 不 应 该 出 
人 H: 现 next-key 锁 ， 这 主要 是 考虑 到 如 果 只 加 正经 记录 锁 的话 ， 可 能 出 现 有 多 条 记录 的 叭 
小 贴 十 “一 三 级 索引 到 值 都 相同 的 情况 。 详情 请 见 https://bugs.mysql.com/bug.php?id=68021 以 及 

https://bugs.mysql.com/bug.php?id=73170. . i . 


另外 ， 在 使 用 INSERT..ON DUPLICATE KEY... 这 样 的 语法 来 插入 记录 时 ， 如 果 遇 到 主键 
或 者 唯一 二 级 索引 列 的 值 重复 ， 会 对 B+ 树 中 已 存在 的 相同 键 值 的 记录 加 X 锁 ， 而 不 是 锁 。 
2， 外 键 检查 


大 家 应 该 还 记得 ，InnoDB 是 一 个 支持 外 键 的 存储 引擎 。 我 们 现在 为 三 国 英雄 的 战马 建 一 
个 表 horse : 


CREATE TABLE horse ( 

number INT PRIMARY KEY, 

horse name VARCHAR (100), 

FOREIGN KEY (number) REFERENCES hero (number) 
) Engine=InnoDB CHARSET=utf8; 


这 样 hero 表 就 算是 一 个 父 表 ， 新 建 的 horse 表 就 算 一 个 子 表 ， 其 中 horse 表 的 number 列 
参照 的 是 hero 表 的 number 列 。 当 向 子 表 horse 中 插入 一 条 记录 时 ， 存 在 number 值 在 hero 表 
中 找 得 到 和 找 不 到 这 两 种 情况 。 

e 待 插 入 记录 的 number 值 在 hero 表 中 能 找到 

比如 我 们 在 horse 表 中 新 插入 的 记录 的 number 值 为 8， 而 在 hero 表 中 number 值 为 8 的 记 
杂 代 表 曹 操 ， 他 的 马 是 绝 影 : 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> INSERT INTO horse VALUES (8, ' 绝 影 ') ; 
Query OK, 1 row affected (0.01 sec) 
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在 插入 成 功 之 前 ， 无 论 当前 事务 的 隔离 级 别 是 什么 ， 只 需要 直接 给 父 表 hero 中 number 值 
为 8 的 记录 加 一 个 S 型 正经 记录 锁 即 可 。 

e@e 待 插入 记录 的 number 值 在 hero 表 中 找 不 到 

比如 我 们 在 horse 表 中 新 插入 的 记录 的 number 值 为 5， 而 在 hero 表 中 不 存在 number 值 为 
5 的 记录 : 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> INSERT INTO horse VALUES (5， ' 绝 影 '); 
ERROR 1452 (23000): Cannot add or uvpdate a child row: a foreign key constraint fails 
(xiaohaizi.horse, CONSTRAINT horse ibfk 1 FOREIGN KEY (number) REFERENCES hero (number)) 


此 时 虽然 插入 失败 ， 但 是 在 这 个 过 程 中 需要 根据 隔离 级 别 对 父 表 hero 中 number 值 为 8 的 
聚 秘 索引 记录 进行 加 锁 〈 或 者 不 加 锁 ): 

e 当 隔 离 级 别 不 大 于 READ COMMITTED 时 ， 并 不 对 记录 加 锁 ; 

e 当 隔 离 级 别 不 小 于 REPEATABLE READ 时 ， 加 的 是 gap 锁 。 


22.5 ”查看 事务 加 锁 情况 


22.5.1 使 用 information schema 数据 库 中 的 表 获 取 锁 信息 


在 information_schema 数据 库 中 ， 有 有 几 个 与 事务 和 锁 紧 密 相 关 的 表 ， 具 体 如 下 。 

e INNODB_TRX : 该 表 存储 了 InnoDB 存储 引擎 当前 正在 执行 的 事务 信息 ， 包 括 事务 id 
(如 果 没 有 为 该 事务 分 配 唯 一 的 事务 id， 则 会 输出 该 事务 对 应 的 内 存 结构 的 指针 )、 事 
务 状态 (比如 事务 是 正在 运行 还 是 在 等 待 获取 某 个 锁 、 事 务 正在 执行 的 语句 、 事 务 是 
何 时 开启 的 ) 等 。 

比如 我 们 可 以 在 一 个 会 话 中 执行 事务 T1: 

# 事务 T1 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT * FROM hero WHERE number = 8 FOR UPDATE; 


+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
| number | name | country | 
+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 一 一 一 -一 -一 -一 十 
| 8 | c 曹 操 | 魏 | 
+ 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.01 sec) 
然后 再 到 男 一 个 会 话 中 查询 INNODB TRX 表 : 


mysql> SELECT * FROM information schema.INNODB TRX\G 


到 下 和 业 焉 吉 二 去 二 主 主 刘 充 完全 全 坏 二 商 富 诡 主 业 疝 雪 二 二 南 row 二 案 二 本 业主 二 全 产 主 试 业 评 宇 业 富 二 语 业 全 凿 生生 娄 雪 向 寅 


trx id: 46671 


一 
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trx state; RUNNING 
trx_started: 2020-05-07 18:20:34 
trx_requested lock id: NULL 
trx wait started: NULL 
trx_ weight: 2 
trx_mysql thread id: 2 
trx gquery: NULL 
trx_operation state: NULL 
trx tables in use: 0 
trx tables locked: 1 
trx lock structs: 2 
trx_lock memory bytes: 1160 
trx rows locked: 1 
trx_rows modified: 0 
trx_concurrency tickets: 0 
trx_isolation level: REPEATABLE READ 
trx unigue checks: 1 
trx_foreign key checks: 1 
trx_last_ foreign key error: NULL 
trx adaptive hash latched: 0 
trx adaptive hash timeout: 0 
trx_is read only: 0 
trx_autocommit_non_locking: 0 
1 row in set (0.02 sec) 


从 执行 结果 可 以 看 到 ， 当前 系统 中 有 一 个 事务 id 为 46671 的 事务 ， 它 的 状态 为 “正在 运行 ” 
(RUNNING) ， 隔 离 级 别 为 REPEATABLE READ。 
当然 还 有 非常 多 的 属性 ， 这 里 就 不 逐个 分 析 了 ， 我 们 重点 关注 一 下 trx_tables locked、 trx_ 
rows_locked 和 trx_lock_structs 属性 。 其 中 ， trx_tables_locked 表示 该 事务 目前 加 了 多 少 个 表 级 
锁 ; trx_rows_locked 表示 目前 加 了 多 少 个 行 级 锁 (注意 这 里 不 包括 隐 式 锁 ); trx_ lock structs 表 
不 该 事务 生成 了 多 少 个 内 存 中 的 锁 结 构 。 
e INNODB_LOCKS : 该 表 记 录 了 一 些 锁 信 息 ， 主要 包括 下 面 两 个 方面 的 锁 信 息 ; 
”如 果 一 个 事务 想 要 获取 某 个 锁 但 未 获取 到 ， 则 记录 该 锁 信息 . 
”如果 一 个 事务 获取 到 了 某 个 锁 ， 但 是 这 个 锁 阻 塞 了 别 的 事务 ， 则 记录 该 锁 信 息 。 
正好 我 们 刚才 在 事务 Tl 中 执行 了 一 个 加 锁 语句 ， 现在 来 查询 一 下 INNODB LOCKS 表 : 


mysgql> SELECT * FROM information_Schema ,INNODB LOCKS; 
Empty set, 1 warning (0.01 sec) 


可 以 看 到 什么 都 没有 ! 这 里 大 家 一 定 要 注意 ， 只 有 当 系 统 中 发 生 了 某 个 事务 因为 获取 不 到 
锁 而 被 阻塞 的 情况 时 ， 该 表 中 才 会 有 记录 。 


我 们 再 到 另 一 个 会 话 中 开启 事务 T2， 然 后 执行 : 


# 事务 T2 

mysql> BEGIN; 

Query OK, 0 rows affected (0.00 sec) 

mysql> SELECT * FROM hero WHERE number = § FOR UPDATE; # 进入 阻塞 状态 

















ww 
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此 时 再 查询 一 下 INNODB _ LOCKS 表 : 


mysdl> SELECT * FROM information schema .INNODB_ IOCKS; 


和 一 


-一 一 一 一 一 一 中 


一 下 一 一 一 一 下 一 一 一 
| locx fd | lock trx id | iock mode | lock type | lock table | lock index | lock space | lock page | lock rec | Locx data | 
ee 


名 一 一 一 一 一 一 一 一 一 一 一 多 


| 46672:202:3:4 | 46672 | X | RECORD | "xiaohaizi'. "hero | PRIMARY | 202 | -和 418 | 
| 46671:202:3:4 | 46671 | Xx | RECORD 1 xiachaizi' hero | PRIMARY | 202 | 3 #198 | 
$4 
2 rows in set, 1 warning (0.02 sec) 


可 以 看 到 ，trx id 为 46672 和 46671 的 两 个 事务 被 显示 了 出 来 ， 但 我 们 无 法 仅 赁 上述 内 容 
来 区 分 到 底 是 谁 获取 到 了 其 他 事务 需要 的 锁 ， 以 及 谁 因 为 没有 获取 到 锁 而 阻塞 。 我们 可 以 到 
INNODB LOCK WAITS 表 中 查看 更 多 信息 。 

e INNODB LOCK WATITS : 表明 每 个 阻塞 的 事务 是 因为 获取 不 到 哪个 事务 持 有 的 锁 而 阻 突 。 

接着 上 面 T2 因为 获取 不 到 T1 的 锁 而 阻塞 的 例子 。 我 们 查询 一 下 INNODB_LOCK_WAITS 表 : 


一 一 作 一 一 一 一 一 一 一 一 一 一 一 个 








mysql> SELECT * FROM information_schema.INNODB_LOCK_WRITS; 

+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| requesting trx id | requested lock id | blocking trx_ id | blocking lock id | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| 46672 | 46672:202:3:4 | 46671 | 46671:202:3:4 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
1 row in set, 1 warning (0.01 sec) 


其 中 ，requesting trx_id 表示 因为 获取 不 到 锁 而 被 阻塞 的 事务 的 事务 id ; blocking trx_ id 表 
示 因 为 获取 到 别 的 事务 需要 的 锁 而 导致 其 被 阻塞 的 事务 的 事务 id。 在 本 例 中 ，requesting trx_ 
id 就 表示 事务 T2 的 事务 id，blocking trx id 就 表示 事务 T1 的 事务 id。 

这 里 需要 注意 一 下 ， 我 们 在 查询 INNODB LOCKS 和 INNODB LOCK WAITS 这 两 个 表 
时 都 得 到 了 一 个 Warming (警告 )。 我 们 看 一 下 系统 在 警告 什么 : 


mysql> SHOW WARNINGS\G 


和 再 再 过 和 全 于 二 本 bE 1 row DEE 


Level: Warning 


Code: 1681 
Message: "INFORMATION SCHEMA.INNODB LOCK WAITS' is deprecated and will be removed ln a future 
release. 


1 row in set (0.00 sec) 


原因 是 INNODB LOCKS 和 INNODB LOCK WAITS 这 两 个 表 在 我 目前 使 用 的 版 本 (MySQL 
5.7.22) 中 被 标记 为 “已 过 时 ?”， 并 且 提 示 在 未 来 的 版 本 中 可 能 被 移 除 〈 实 际 上 在 MySQL 8.0 
中 已 被 移 除 )。 其 实 也 就 是 不 鼓励 我 们 使 用 这 两 个 表 来 获取 相关 的 锁 信 息 。 


22.5.2 使 用 SHOW ENINGE INNODB STATUS 获取 锁 信 息 
现在 假设 前 文 使 用 的 TI、T2 事务 都 提交 了 ， 我 们 再 新 开启 几 个 事务 : 


# 事务 T3，REPEATABLE READ 隔 离 级 别 


mysgql> BEGIN; 

Query OK, 0 rows affected (0.00 sec) 

mysql> SELECT * FROM hero FORCE INDEX (idx_ name) WHERE name > 'c 曹 操 ' AND name <= 'x 有 或 ' 
AND country != ' 吴 !' ORDER BY name DESC FOR UPDATE; 











AN 
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t+- 一 一 一 一 一 一 +- 一 一 一 一 一 一 一 一 + 一 一 一 -一 -一 一 一 + 
| number | name | country | 
+—— 一 一 一 一 一 一 4- 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 
| 15 | x 苟 或 | 魏 | 
| 1 | ] 刘 备 | 蚤 | 
+ 一 一 一 一 一 一 一 一 +— 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 


2 rows in set (0.02 sec) 


这 个 语句 的 加 锁 流 程 在 前 面 已 经 分 析 过 了 ， 我 们 再 看 一 遍 该 语句 在 执行 时 的 加 锁 示意 图 
( 见 图 22-36)。 


idx_name 索 引 示 意图 : 
name 侧 | ; 
number 列 | : 








聚 镀 索 引 示 意图 : 





WE SHOW ENINGE INNODB STATUS 语句 来 获取 当前 系统 中 各 个 事务 的 
加 锁 情况 。 


mysql> SHOW ENGINE INNODB STATUS\G 
:此 处 省 路 很 多 信息 


# 下 一 个 待 分 配 的 事务 id 信 息 
Trx id counter 46693 


# 一 些 关 于 purge 的 信息 
Purge done for trx's n:o < 46693 undo n:o < 0 state: running but idle 


# 每 个 回 滚 段 中 都 有 一 个 Bistory 链 表 ， 这 些 链表 的 总 长 度 为 72 
History list length 72 


# 我 们 没 介 绍 管理 锁 结构 的 哈 希 表 ， 可 以 忽略 这 项 
Total number of lock structs in row lock hash table 3 


# 各 个 事务 的 具体 信息 
LIST OF TRANSACTIONS FOR EACH SESSION: 


# 事务 id 为 46688 的 事务 信息 处 在 活跃 状态 273 秒 
-~-- TRANSACTION 46688, ACTIVE 273 sec 


# 该 事务 有 4 个 镇 结构 ，8 个 行 镜 (heap size 没 介绍 过 ， 和 忽略 ) 
| 
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4 lock struct(s), heap size 1160, 8 row lock(s) 


# 执行 该 事务 的 线程 在 MySQL 中 的 编号 为 2， 操 作 系 统 中 的 线程 号 是 123145426898944， 本 次 查询 的 编号 是 763， 客 户 端 主 
机 名 是 localhost，IP 地 址 为 127.0.0;1， 用 户 名 是 root 
MySQL thread id 2, OS thread handle 123145426898944, query id 763 localhost 127.0.0.1 root 


starting 


. .此 处 省 略 很 多 信息 


由 于 输出 的 内 容 太 多 ， 方 便 起 见 ， 这 里 只 保留 了 TRANSACTIONS 的 相关 信息 。 不 过 我 
们 无 法 从 上 述 输 出 中 看 出 到 底 是 哪个 事务 对 哪些 记录 加 了 哪些 锁 。 我 们 将 系统 变量 innodb_ 
status_output locks (这 个 系统 变量 是 在 MySQL 5.6.16 中 引入 的 ) 设置 为 ON : 


mysql> SET GLOBAL innodb_status_output_locks = ON; 
Query OK, 0 rows affected (0.01 sec) 


然后 再 运行 SHOW ENGINE INNODB STATUS 语句 : 


mysql> SHOW ENGINE INNODB STATUS\G 


.. .此 处 省 略 很 多 信息 
TRANSACTIONS 

Trx id counter 46693 : 
Purge done for trx's n:0 < 46693 undo n:o < 0 state: running but idle 

History list length 72 

Total number of lock structs in row lock hash table 3 

LIST OF TRANSACTIONS FOR EACH SESSION: 

-—-TRANSACTION 46688, ACTIVE 145 sec 

4 lock struct(s), heap size 1160, 8 row lock{(s) 

MySQL thread id 2, OS thread handle 123145426898944, query ld 760 localhost 127.0.0.1 root 
starting : 
SHOW ENGINE INNODB STATUS 

TABLE LOCK table 'xiaohaizi'.'hero' trx id 46688 lock mode IX 





RECORD LOCKS space id 203 Page no 4 n bits 72 index idx name of table 'xiaohaizi'.'hero’' trx 
id 46688 lock mode X locks gap before rec 

Record lock, heap no 3 PHYSICAL RECORD: n fields 2; compact format; info bits 0 

0: len 10; hex 7ae8afb8e8919be4baae; asc 2z ;; 者 7ae8afb8e8919bedbaae 是 'z 诸 更 亮 ' 的 ut £8 编码 
1: len 4; hex 80000003; asc ;7 寺 80000003 代 表 主 键 值 为 3 


RECORD LOCKS space id 203 page no 4 n bits 72 index idx name of table ‘'xiaohaizi'.'hero' trx 
id 46688 lock mode X 

Record lock, heap no 2 PHYSICAL RECORD: n fields 2; compact format; info bits 0 

0: len 7; hex 6ce58898e5a487; asc 1 ;; # 6ce58898e5a487 是 '1 刘 备 ' 的 utf8 编 码 

1: len 4; hex 80000001; asc ;; # 80000001 代 表 主键 值 


Record lock, heap no 4 PHYSICAL RECORD: n fields 2; compact format; info bits 0 
0: len 7; hex 63e69bb9e6938d; asc c ;; 着 63e69bb9e6938d 是 'c 曹 操 ' 的 utf8 编 码 
1: len 4; hex 80000008; asc ;:; # 80000008 代 表 主 键 值 8 


Record lock, heap no 5 PHYSICAL RECORD: n fields 2; compact format; info bits 0 
0: len 7; hex 78e88d80e5bda7; asc x ;; 地 78e88d80e5bda7 是 'x 匣 或 ' 的 utf8 编 码 
1: len 4; hex 8000000f; asc ;; 地 8000000f 代 表 主 键 值 15 
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Record lock, heap no 6 PHYSICAL RECORD: n fields 2; compact format; 


info bits 0 
0: len 7; hex 73e5ad99e69d83; asc s 7; # 73e5ad99e69d83 是 's 孙 权 ' 的 utf8 编 码 
| 1: len 4; hex 80000014; asc ;? 半 80000014 代 表 主 键 值 20 
: 
3 RECORD LOCKS space id 203 Page no 3 n bits 72 index PRIMARY of table 'xiaohaizi'.'hero' trx 


id 46688 lock mode X locks rec bat not gap 

Record lock, heap no 2 PHYSICAL RECORD: n fields 5; compact format:; 
0: len 4; hex 80000001; asc 全 

1: len 6; hex 00000000b65b; asc L232 

2: len 7; hex 80000001c10110; asc 

3: len 7; hex 6ce58898e5a487; asc 1 

4 


info bits 0 


: len 3; hex e89c80; asc 28 
3 

Record lock, heap no 5 PHYSICAL RECORD: n_fields 5; compact format; info bits 0 
y 0: len 4; hex 8000000f; asc 7? 


1: len 6; hex 00000000b65b; asc [23 

2: len 7; hex 80000001c10137; asc 1 
3: len 7; hex 78e88d80e5bda7; asc x 

4: len 3; hex e9ad8f; asc 


Record lock, heap no 6 PHYSICAL RECORD: n_fields 5; compact format; info bits 0 
0: len 4; hex 80000014; asc ?? 


1: len 6; hex 00000000b65b; asc [2; 
2: len 7; hex 80000001c10144; asc D;; 
| 3: len 7; hex 73e5ad99e69d83; asc s 
4; len 3; hex e590b4; asc 7 1; 
,. .此 处 省 略 很 多 信息 
这 一 次 ， 每 个 事务 都 为 哪些 记录 加 了 哪些 锁 ， 就 显示 得 清 清 楚楚 明明 白白 了 。 但 是 要 注意 
下 面 几 个 地 方 。 
e TABLELOCK table xiaohaizi'.'hero' trx id 46688 lock mode IX 
/ 表示 事务 id 为 46688 的 事务 对 xiaohaizi 数据 库 下 的 hero 表 加 了 表 级 别 的 意向 独占 锁 。 
® RECORD LOCKS space id 203 page no 4 n bits 72 index idx_name of table 'xiaohaizi'.'hero' 
trx 1d 46688 lock mode X locks gap before rec 
l 表示 一 个 锁 结构 ， 这 个 锁 结构 的 Space ID 是 203，Page Number 是 4， .n_bits 属性 值 为 72， 
| 对 应 的 索引 是 idx_name。 这 个 锁 结 构 中 存放 的 锁 的 类 型 是 义 型 gap 锁 (lock_mode X locks gap 
before rec 代表 的 就 是 义 型 gap 锁 )。 
| 这 条 语句 后 跟随 着 加 锁 记 录 的 详细 信息 (其 实 就 是 name 值 为 过 诸葛 亮 ，, 的 二 级 索引 记录 )， 
e RECORD LOCKS space id 203 page no 4nbits 72 index idx_name of table 'xiaohaizi'.'hero' 
b 


trx 1d 46688 lock mode X 
也 表示 一 个 锁 结 构 ， 这 个 锁 结构 的 Space ID 是 203，Page Number 是 4， n_bits 属性 值 为 


72， 对 应 的 索引 是 idx_name。 这 个 锁 结 构 中 存放 的 锁 的 类 型 是 义 型 next-key 锁 〈lock mode X 
代表 的 就 是 X 型 next-key 锁 )。 


这 条 语句 后 跟随 着 加 锁 记 录 的 详细 信息 (其 实 就 是 name 值 为 1 刘备 '、'c 曹操 '、%% 敬 或 '、' 
孙权 ' 的 三 级 索引 记录 )。 


® RECORD LOCKS space id 203 page no 3 n bits 72 index PRIMARY of table ‘xiaohaizi'.'hero’ 
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trx id 46688 lock mode X locks rec but not gap 
也 表示 一 个 锁 结 构 ， 这 个 锁 结构 的 Space ID 是 203，Page Number 是 3，n_bits 属性 值 为 
72， 对 应 的 索引 是 PRIMAY， 也 就 是 聚 簇 索引。 这 个 锁 结 构 中 存放 的 锁 的 类 型 是 X 型 正经 记 
录 锁 (lock mode X locks rec but not gap 代表 的 就 是 X 型 正经 记录 锁 )。 
这 条 语句 后 跟随 着 加 锁 记 录 的 详细 信息 (其 实 就 是 number 值 为 1、15、20 的 聚 簇 索 引 记 录 )。 


某 个 事 - 务 没有 被 : 分 配 唯一 的 事务 id， 则 执行 SHOW ENGINE INNODB STATUS 语 
名 时 并 不 会 显示 该 事务 在 执行 过 程 中 持 有 的 锁 。 上 比如， 事务 T4 只 执行 7 SELECT * FROM 
hero WHERE numiber = 1 LOCK IN SHARE MODE 语句 ， 那 么 事务 T4 所 持 有 的 锁 是 不 显示 
O: 的 :二 筋 外 去 SHOW VENGINE INNODB s STATUS 不 显示 隐 式 锁 ， 这 一 点 需要 大 家 注意 . 





-Ap 


另外 ， 我 们 在 s SHOW ENGINE INNODB STATUS 的 输出 中 可 以 看 到 ，hero 表 的 


number 列 的 值 都 是 “800000XX” 的 形式 ， 这 是 因为 number 列 是 存储 有 符号 数 的 (也 
就 是 既 可 以 存储 负数 ， a 抽 数 )， 设计 InnoDB 的 大 叔 规 定 在 储存 有 符号 数 
的 时 候 需 要 将 首位 置 为 区 

22.6” 死 锁 


假设 我 们 开启 了 两 个 事务 Tl1 和 T2， 它 们 的 具体 执行 流程 如 图 22-37 所 示 。 





图 22-37 事务 Tl 和 T2 的 执行 流程 。 


我 们 对 图 22-37 进行 分 析 。 
e 从 加 中 可 以 看 出 ，T1 先 对 number 值 为 1 的 聚 簇 索 引 记录 加 了 一 个 义 型 正经 记录 锁 。 

e 从 中 可 以 看 出 ，T2 对 number 值 为 3 的 聚 簇 索 引 记录 加 了 一 个 义 型 正经 记录 锁 。 

e 从 台中 可 以 看 出 ，T1 接着 也 想 对 number 值 为 3 的 记录 加 一 个 义 型 正经 记录 锁 ， 但 是 
与 由 中 T2 持 有 的 锁 冲 突 ， 所 以 Tl 进入 阻塞 状态 ， 等 待 获 取 锁 

e 从 G) 中 可 以 看 出 ，T2 也 想 对 number 值 为 1 的 记录 加 一 个 义 型 正经 记录 锁 ， 但 是 与 @ 
中 TIl 持 有 的 锁 冲 突 ， 所 以 T2 进入 阻塞 状态 ， 等 待 获取 锁 。 

这 就 陷入 了 一 个 比较 尴 榨 的 局 面 。T1 说 :“ 我 不 能 继续 执行 了 ， 我 要 等 T2 把 在 number 值 

为 3 的 聚 簇 索 引 记 录 上 加 的 XX 型 正经 记录 锁 释 放 掉 ， 之 后 才能 继续 执行 。”T2 说 :“ 我 也 不 能 
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继续 执行 了 ， 我 要 等 TI 把 在 number 值 为 1 的 聚 仿 索 引 记录 上 加 的 义 型 正经 记录 锁 释放 掉 ， 
之 后 才能 继续 执行 。” 也 就 是 说 ， 由 于 T1 和 T2 都 在 等 待 对 方 先 释放 掉 与 自 己 需要 的 锁 相 冲 突 
的 锁 ， 因 此 导致 TI 和 T2 都 不 能 继续 执行 ， 此 时 就 称 发 生 了 死 锁 。 

InnoDB 有 一 个 死 锁 检测 机 制 ， 当 它 检 测 到 死 锁 发 生 时 ， 会 选择 一 个 较 小 的 事务 进行 回 滚 
《所 谓 较 小 的 事务 ， 是 指 在 事务 执行 过 程 中 插入 、 更 新 或 删除 的 记录 条 数 较 少 的 事务 ) ， 并 向 
客户 端 发 送 一 条 消息 : 


ERROR 1213 (40001): Deadlock found when trying to get lock; try restarting transaction 


从 上 述 例子 中 可 以 看 出 ， 当 不 同 的 事务 以 不 同 的 顺序 获取 某 些 记录 的 锁 时 ， 可 能 会 发 生死 
锁 。 当 死 锁 发 生 时 ，InnoDB 会 回 滚 一 个 事务 以 释放 掉 该 事务 所 获取 的 锁 。 

我 们 有 必要 找 出 那些 发 生死 锁 的 语句 ， 通过 优化 语句 来 改变 加 锁 顺 序 ， 或 者 建立 合适 的 索 
引 以 改变 加 锁 过 程 ， 从 而 避免 死 锁 问题 。 不 过 ， 在 实际 应 用 中 我 们 可 能 压根 儿 不 知道 到 底 是 哪 


泽 语句 在 执行 时 导致 了 死 锁 ， 因 此 需要 根据 死 锁 发 生 时 产生 的 死 锁 日 志 来 逆向 定位 产生 死 锁 的 
语句 , 然后 再 优化 我 们 的 业务 。 


可 以 通过 执行 SHOW ENGINE INNODB STATUS 语句 来 查看 最 近 发 生 的 一 次 死 锁 信息 。 


ee 


# 死 锁 发 生 的 时 间 是 2020-05-07 20:06:31， bx 7000076d1000 是 操作 系统 为 当前 会 话 分 配 的 线程 的 线程 编号 
2020-05-07 20:06:31 0x7000076d1000 


| . 
# 死 锁 发 生 时 第 一 个 事务 的 有 关 信息 : 
*#* (1) TRANSACTION: 


# 为 事务 分 配 的 事务 id 为 46719 
# 事务 处 于 ACTIVE 状 态 已 经 10 秒 了 
# 事务 现在 正在 做 的 操作 就 是 : "starting index readn 


# 该 事务 的 事务 id 为 46719， 比 第 二 个 事务 的 事务 id 大 ， 说 明 是 后 执行 的 ， 这 也 就 说 明 该 事务 为 72 
TRANSACTION 46719, ACTIVE 10 sec starting index read 


# 此 事务 当前 执行 的 语句 使 用 了 1 个 表 ， 为 1 个 表 上 了 锁 
mysql tables in use 1, locked 1 


# 此 事务 处 于 LOCK WAIT 状 态 ， 拥 有 3 个 锁 结 构 ，2 个 行 锁 ， heap size 和 忽略 
LOCK WAIT 3 lock struct(s) ， heap size 1160, 2 row lock(s) 


# 执行 此 事务 的 线程 信息 


MySQL thread id 30, OS thread handle 123145427177472, query id 810 localhost 127.0.0.1 root 
statistics 


# 发 生死 锁 时 此 事务 正在 执行 的 语句 
SELECT * FROM hero WHERE number = 1 FOR UPDATE 


# 此 事务 当前 在 等 待 获取 的 锁 : 
“ (1) WRITING FOR THIS LOCK TO BE GRANTED: 


RECORD LOCKS space id 203 page no 3 n bits 72 index PRIMARY of table ' 
id 46719 lock mode X locks rec but not gap waiting 


Record lock, heap no 2 PHYSICAL RECORD: n fields 5; compact format; info bits 0 


xiaohaizi'.'hero' trx 





= 
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; hex 80000001; asc 这 


0: len 4 

1: len 6; hex 00000000b65b; asc L223 

2: len 7; hex 80000001c10110; asc 2 
3: len 7; hex 6ce58898e5a487; asc 1 7? 
4: len 3; hex e89c80; asc 77 


# 死 镜 发 生 时 第 二 个 事务 的 有 关 信 息 : 
#*# (2) TRANSACTION: 


# 为 事务 分 配 的 事务 id 为 46718 

# 事务 处 于 ACTIVE 状 态 已 经 17 秒 了 
# 事务 现在 正在 做 的 操作 就 是 : "starting index read" 4 
# 该 事务 的 事务 id 为 46718， 比 第 一 个 事务 的 事务 id 小 ， 说 明 是 先 执行 的 ， 这 也 就 说 明 该 事务 为 T1 
TRANSACTION 46718, ACTIVE 17 sec starting index read 


# 此 事务 当前 执行 的 语句 使 用 了 1 个 表 ， 为 1 个 表 上 了 锁 , 
mysql tables in use 1, locked 1 
” 坦 此 事务 拥有 3 个 锁 结构 ，2 个 行 锁 ，heap size 忽 略 

3 lock Struct (S) ，heap size 1160, 2 row lock(s) 

# 执行 此 事务 的 线程 信息 

MySQL thread id 2, OS thread handle 123145426898944, query id 811 localhost 127.0.0.1 root 
statistics 

# 发 生死 锁 时 此 事务 正在 执行 的 语句 


* 交 女 (2) HOLDS THE LOCK(S) : 
RECORD LOCKS space id 203 page no 3 n bits 72 index PRIMARY of table 'xiaohaizi'.'hero!' trx 
id 46718 lock mode X locks rec but not gap 
Record lock, heap no 2 PHYSICAL RECORD: n fields 5; compact format; info bits 0 
0: len 4; hex 800000017 asc 六 
1: len 6; hex 00000000b65b; asc [7 
2: len 7; hex 80000001c10110; asc YY， 
| 3: len 7; hex 6ce58898e5a487; asc 1 2 7 
| 4: len 3; hex e89c80; asc 有 


# 此 事务 等 待 获取 的 锁 
克 雪 雪 (2) WRITING FOR THIS LOCK TO BE GRANTED: 
RECORD LOCKS space id 203 page no 3 n bits 72 index PRIMARY of table ‘xiaohaizi'.'hero!' 
trx id 46718 lock mode X locks rec but not gap waiting 
Record lock, heap no 3 PHYSICAL RECORD: n fields 5; compact format; info bits 0 
0: len 4; hex 80000003; asc $3 : 


1: len 6; hex 00000000b65b; asc 区 

2: len 7; hex 80000001cl011Q;y asc yp 

3: len 10; hex 7ae8afb8e8919be4baae; asc Zz ps 
4: len 3; hex e89c80; asc SA 

# InnoDB 决 定 回 滚 第 二 个 事务 ， 也 就 是 T1 

二 去 去 WE ROLL BACK TRANSACTION (2) 
接 下 来 ， 我 们 按照 如 下 流程 来 分 析 死 锁 日 志 。 

e 首先 找 出 发 生死 锁 时 各 个 事务 正在 执行 的 语句 。 


SELECT * FROM hero WHERE number = 3 FOR UPDATE 
# 此 事务 已 经 获取 的 锁 : 
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很 显然 事务 TI 正在 执行 的 语句 是 : 


SELECT * FROM hero WHERE number = 3 FOR UPDATE; 
事务 T2 正在 执行 的 语句 是 : 
SELECT * FROM hero WHERE number = 1 FOR UPDRATE， 


e 然后 到 自 己 的 业务 代码 中 找到 这 两 条 语句 所 在 事务 的 其 他 语句 。 
我 们 可 以 找到 事务 T1 之 前 执行 了 下 面 这 条 语句 ， 


SELECT * FROM hero WHERE number = 1 FOR UPDATE; 
事务 T2 之 前 执行 了 下 面 这 条 语句 : 
SELECT * FROM hero WHERE number = 3 FOR UPDATE ; 


。 最 后 对 照 着 各 个 事务 获取 到 的 锁 和 正在 等 待 的 锁 的 信息 来 分 析 死 锁 发 生 过 程 。 
事务 T1 已 经 获取 到 了 number 值 为 1 的 聚 簇 索引 记录 的 X 型 正经 记录 锁 ， 按照 之 前 路 另 
的 语句 加 锁 分 析 的 知识 可 以 知道 ， 该 锁 其 实 是 在 TI 执行 下 面 这 条 语句 时 加 的 ; 


SELECT * FROM hero WHERE number = 1 FOR UPDATE; 


事务 T2 已 经 获取 到 了 number 值 为 3 的 聚 簇 索引 记录 的 义 型 正经 记录 锁 ， 按照 之 前 路 轧 
的 语句 加 锁 分 析 的 知识 可 以 知道 ， 该 锁 其 实 是 在 T2 执行 下 面 这 条 语句 时 加 的 : 


SELECT * FROM hero WHERE number = 3 FOR UPDATE; 


然后 看 到 事务 T1 正在 等 待 获取 number 值 为 3 的 聚 簇 索引 上 的 义 型 正经 记录 锁 ， 这 是 由 
T1 执行 下 面 这 条 语句 造成 的 : 


SELECT * FROM hero WHERE number = 3 FOR UPDATE; 


最 后 看 到 事务 T2 正在 等 待 获取 number 值 为 1 的 聚 艇 索引 上 的 义 型 正经 记录 锁 ， 这 是 由 
T2 执行 下 面 这 条 语句 造成 的 : 


SELECT * FROM hero WHERE number = 1 FOR UPDRATE ; 


这 样 ， 通 过 把 每 个 事务 因为 执行 哪些 语句 而 对 哪些 记录 进行 加 锁 的 情况 分 析出 来 ， 也 就 把 
死 锁 及 生 的 整个 过 程 还 原 了 出 来 。 

就 这 里 的 具体 问题 来 说 ， 我 们 最 后 发 现 ， 原 来 是 两 个 事务 对 number 值 为 1、3 的 两 条 人 聚 簇 
索引 记录 的 加 锁 顺 序 不 同 而 导致 发 生 了 死 锁 。 我 们 可 以 在 业务 代码 中 考虑 是 否 通过 更 改 事务 对 
记录 的 加 锁 顺 序 来 避免 死 锁 。 比 如 ， 将 T2 修改 为 先 获 取 number 值 为 1 的 聚 簇 索引 记录 的 锁 ， 
髓 获取 number 值 为 3 的 聚 簇 索 引 记录 的 锁 ， 这 样 两 个 事务 在 执行 过 程 中 就 不 会 发 生死 锁 了 ，。 


SHOW ENGINE INNODB STATUS 只 会 显示 最 近 一 次 发 生 的 死 锁 信息 ， 如果 死 锁 频 - 
:三 : 繁 出 现 ， 可 以 将 全 局 系统 变量 innodb print all _deadlocks 设置 为 ON, 这 样 可 以 将 每 个 
小 贴 十 ” 死 锁 发 生 时 的 信息 都 记录 在 MySQL 销 误 自 志 > 关 局 宙 太 各 二 和 站 日 A 
更 多 的 死 锁 情 况 了 . Gi 网 A 
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22.7 ”总结 | 
MVCC 和 加 锁 是 解决 并 发 事务 带 来 的 一 致 性 问题 的 两 种 方式 。 
共享 锁 简 称 为 S 锁 ， 独 占 锁 简称 为 义 锁 。S 锁 与 S 锁 兼 容 ; X 锁 与 S 锁 不 兼容 ， 与 久 锁 
也 不 兼容 。 
事务 利用 MVCC 进行 的 读 取 操作 称 为 一 致 性 读 ， 在 读 取 记录 前 加 锁 的 读 取 操作 称 为 锁定 
读 。 设 计 InnoDB 的 大 叔 提 供 了 下 面 两 种 语法 来 进行 锁定 读 : 
ee SELECT..LOCK IN SHARE MODE 语句 为 读 取 的 记录 加 S 锁 ; 
e SELECT..FOR UPDATE 语句 为 读 取 的 记录 加 X 义 锁 。 
INSERT 语句 一 般 情 况 下 不 需要 在 内 存 中 生成 锁 结构 ， 并 单纯 依靠 隐 式 锁 保护 插入 的 记 
录 。UPDATE 和 DELETE 语句 在 执行 过 程 中 ， 在 B+ 树 中 定位 到 待 改 动 记 录 并 给 该 记录 加 锁 
的 过 程 也 算是 一 个 锁定 读 。 
IS、IX 锁 是 表 级 锁 ， 它 们 的 提出 仅仅 为 了 在 之 后 加 表 级 别 的 S 锁 和 义 锁 时 ， 可 以 快速 判 
新 表 中 的 记录 是 否 被 上 锁 ， 以 避免 用 遍历 的 方式 来 查看 表 中 有 没有 上 锁 的 记录 。 
InnoDB 中 的 行 级 锁 类 型 有 下 面 这 些 。 
e Record Lock : 被 我 们 戏称 为 正经 记录 锁 ， 只 对 记录 本 身 加 锁 。 
e Gap Lock : 锁 住 记录 前 的 间 阶 ， 防 止 别 的 事务 向 该 间隙 插入 新 记录 。 
© Next-Key Lock : Record Lock 和 Gap Lock 的 结合 体 ， 既 保护 记录 本 身 ， 也 防止 别 的 事 
务 问 该 间 隐 插入 新 记录 。 
@ JInsert Intention Lock : 很 “鸡肋 ”的 锁 ， 仅 仅 是 为 了 解决 “在 当前 事务 插入 记录 时 因 
磁 到 别 的 事务 加 的 gap 锁 而 进入 等 待 状态 时 ， 也 生成 一 个 锁 结 构 ” 而 提出 的 。 某 个 事 
务 获取 一 条 记录 的 该 类 型 的 锁 后 ， 不 会 阻止 别 的 事务 继续 获取 该 记录 上 任何 类 型 的 锁 。 
e 隐 式 锁 : 依靠 记录 的 trx_id 属性 来 保护 不 被 别 的 事务 改动 该 记录 。 
InnoDB 存储 引擎 的 锁 都 在 内 存 中 对 应 着 一 个 锁 结 构 。 有 时 为 了 节省 锁 结 构 ， 会 把 符合 下 
面条 件 的 锁 放 到 同一 个 锁 结构 中 : 
e 在 同一 个 事务 中 进行 加 锁 操 作 ; 
e 被 加 锁 的 记录 在 同一 个 页 面 中 ; 
e 加 锁 的 类 型 是 一 样 的 ; 
e 等 待 状态 是 一 样 的 。 
语句 加 锁 的 情况 受到 所 在 事务 的 隔离 级 别 、 语 句 执行 时 使 用 的 索引 类 型 、 是 否 是 精确 匹 
配 、 是 否 是 唯一 性 搜索 、 具 体 执行 的 语句 类 型 等 情况 的 制约 ， 需 要 具体 情况 具体 分 析 。 
可 以 通过 information_schema 数据 库 下 的 INNODB_TRX、INNODB LOCKS、INNODB 
LOCK_WAITS 表 来 查看 事务 和 锁 的 相关 信息 ， 也 可 以 通过 SHOW ENGINE INNODB STATUS 
语句 查看 事务 和 锁 的 相关 信息 。 


个 同事 务 由 于 互相 持 有 对 方 需要 的 锁 而 导致 事务 都 无 法 继续 执行 的 情况 称 为 死 锁 。 死 锁 发 
生 时 ，InnoDB 会 选择 一 个 较 小 的 事务 进行 回 滚 。 可 以 通过 查看 死 锁 日 志 来 分 析 死 锁 发 生 过 程 。 








